Advertisement
Guest User

Untitled

a guest
Jun 24th, 2019
98
0
Never
Not a member of Pastebin yet? Sign Up, it unlocks many cool features!
text 3.02 KB | None | 0 0
  1. Для работы понадобится файл с данными - http://homb.it/pages.union , склеенный из нескольких малых файлов.
  2.  
  3. Каждый малый файл обработан через mystem и имеет следующую структуру:
  4.  
  5. # Название:Название статьи
  6. # Категория:Название категории 1/Название подкатегории 1
  7. # Категория:Название категории 2
  8. ...
  9. # Категория:Еще Название категории/Еще Название подкатегории/Название подподкатегории
  10. слово лемаа разбор вероятность
  11. ...
  12. Первая строка указывает название статьи, следующие строки, начинующиеся с #, указывают категории статьи. Затем идет таблица, разделенная знаком табуляции \t и содержащая слово, лемму, разбор и вероятность того, что эта лемма верна.
  13.  
  14. Задания
  15. № 1
  16. Напишите программу, которая разделит большие файлы на малые. Каждый малый файл назовите по шаблону «Название статьи.tsv» и сохраните в текущую папку. Скопируйте этот файл во все папки, указанные в качестве категорий, например в Название категории 1/Название подкатегории 1/, Название категории 2/, Еще Название категории/Еще Название подкатегории/Название подподкатегории/.
  17.  
  18. № 2
  19. Прочтите все файлы из папки ./Антропогенные географические объекты по алфавиту/, созданной в прошлом задании. Распечатайте с новой строки все слова оригинальных текстов (первый столбец) для которых в разборе указан женский род, а вероятность разбора не меньше половины, в файл текущей директории words.txt.
  20.  
  21. № 3
  22. Напишите программу, которая прочтет исходный файл pages.union, очистит его от метаинформации (строк, начинающихся с #) и составит частотный словарь лемм. Выведете частотный словарь в файл dict.csv, указав на каждой строке через запятую лемму и её частоту (отношение числа упоминаний к полному числу лемм). Строки должны быть расположены в порядке убывания частоты.
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement