SHARE
TWEET

Untitled

a guest Jun 24th, 2019 57 Never
Not a member of Pastebin yet? Sign Up, it unlocks many cool features!
  1. Для работы понадобится файл с данными - http://homb.it/pages.union , склеенный из нескольких малых файлов.
  2.  
  3. Каждый малый файл обработан через mystem и имеет следующую структуру:
  4.  
  5. # Название:Название статьи
  6. # Категория:Название категории 1/Название подкатегории 1
  7. # Категория:Название категории 2
  8. ...
  9. # Категория:Еще Название категории/Еще Название подкатегории/Название подподкатегории
  10. слово  лемаа  разбор    вероятность
  11. ...
  12. Первая строка указывает название статьи, следующие строки, начинующиеся с #, указывают категории статьи. Затем идет таблица, разделенная знаком табуляции \t и содержащая слово, лемму, разбор и вероятность того, что эта лемма верна.
  13.  
  14. Задания
  15. № 1
  16. Напишите программу, которая разделит большие файлы на малые. Каждый малый файл назовите по шаблону «Название статьи.tsv» и сохраните в текущую папку. Скопируйте этот файл во все папки, указанные в качестве категорий, например в Название категории 1/Название подкатегории 1/, Название категории 2/, Еще Название категории/Еще Название подкатегории/Название подподкатегории/.
  17.  
  18. № 2
  19. Прочтите все файлы из папки ./Антропогенные географические объекты по алфавиту/, созданной в прошлом задании. Распечатайте с новой строки все слова оригинальных текстов (первый столбец) для которых в разборе указан женский род, а вероятность разбора не меньше половины, в файл текущей директории words.txt.
  20.  
  21. № 3
  22. Напишите программу, которая прочтет исходный файл pages.union, очистит его от метаинформации (строк, начинающихся с #) и составит частотный словарь лемм. Выведете частотный словарь в файл dict.csv, указав на каждой строке через запятую лемму и её частоту (отношение числа упоминаний к полному числу лемм). Строки должны быть расположены в порядке убывания частоты.
RAW Paste Data
We use cookies for various purposes including analytics. By continuing to use Pastebin, you agree to our use of cookies as described in the Cookies Policy. OK, I Understand
 
Top