Advertisement
Not a member of Pastebin yet?
Sign Up,
it unlocks many cool features!
- Для работы понадобится файл с данными - http://homb.it/pages.union , склеенный из нескольких малых файлов.
- Каждый малый файл обработан через mystem и имеет следующую структуру:
- # Название:Название статьи
- # Категория:Название категории 1/Название подкатегории 1
- # Категория:Название категории 2
- ...
- # Категория:Еще Название категории/Еще Название подкатегории/Название подподкатегории
- слово лемаа разбор вероятность
- ...
- Первая строка указывает название статьи, следующие строки, начинующиеся с #, указывают категории статьи. Затем идет таблица, разделенная знаком табуляции \t и содержащая слово, лемму, разбор и вероятность того, что эта лемма верна.
- Задания
- № 1
- Напишите программу, которая разделит большие файлы на малые. Каждый малый файл назовите по шаблону «Название статьи.tsv» и сохраните в текущую папку. Скопируйте этот файл во все папки, указанные в качестве категорий, например в Название категории 1/Название подкатегории 1/, Название категории 2/, Еще Название категории/Еще Название подкатегории/Название подподкатегории/.
- № 2
- Прочтите все файлы из папки ./Антропогенные географические объекты по алфавиту/, созданной в прошлом задании. Распечатайте с новой строки все слова оригинальных текстов (первый столбец) для которых в разборе указан женский род, а вероятность разбора не меньше половины, в файл текущей директории words.txt.
- № 3
- Напишите программу, которая прочтет исходный файл pages.union, очистит его от метаинформации (строк, начинающихся с #) и составит частотный словарь лемм. Выведете частотный словарь в файл dict.csv, указав на каждой строке через запятую лемму и её частоту (отношение числа упоминаний к полному числу лемм). Строки должны быть расположены в порядке убывания частоты.
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement