Забиваем микроскопом гвозди

log.csv - директорией выше
Anaconda / Python 3.6

Смотрим общее количество запросов

$ cat ../log.csv | grep 'text' | wc -l  
    1333503

Запросы, содержащие 'программа передач'

$ cat ../log.csv | grep 'программа передач' | wc -l
    690

Запросы, содержащие 'канал'

$ cat ../log.csv | grep 'канал' | wc -l
    3141

Ну очень приблеженно выберите запросы, связанные с просмотром телевидения составляют 3ю часть всех запросов

(3141+690)*100 / 1333503 
0.2872884425456861

Попробуем добить чуть мозгов

Ставим зависимости

$ pip install -r requirements.txt

mkdir output mkdit dataset

Создаем датасет

$ cat ../log.csv | grep 'программа передач' > output/tv_programm.csv
$ cat ../log.csv | grep 'канал' > output/tv_channel.csv  
$ cat ../log.csv | grep 'смотреть онлайн' > output/tv_online.csv
$ cat ../log.csv | grep 'сериал' > output/tv_serial.csv
$ head -n 1 ../log.csv > output/tv_dataset.csv

$ cat output/tv_programm.csv output/channel.csv output/tv_online.csv output/tv_serial.csv >> output/tv_dataset.csv

$ cat dataset/dataset_header.csv dataset/поиск_канала.csv dataset/программа_передач.csv dataset/просмотр_online.csv dataset/сериалы.csv > dataset/cleaned_dataset.csv

Приводим запросы в порядок

$ pyhton 1_dataset_setup.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

readme.md

readme.md

Забиваем микроскопом гвозди

Попробуем добить чуть мозгов

Files

readme.md

Latest commit

History

readme.md

File metadata and controls

Забиваем микроскопом гвозди

Попробуем добить чуть мозгов