Untitled

Для работы понадобится файл с данными - http://homb.it/pages.union , склеенный из нескольких малых файлов.

Каждый малый файл обработан через mystem и имеет следующую структуру:

# Название:Название статьи
# Категория:Название категории 1/Название подкатегории 1
# Категория:Название категории 2
...
# Категория:Еще Название категории/Еще Название подкатегории/Название подподкатегории
слово	лемаа	разбор	вероятность
...
Первая строка указывает название статьи, следующие строки, начинующиеся с #, указывают категории статьи. Затем идет таблица, разделенная знаком табуляции \t и содержащая слово, лемму, разбор и вероятность того, что эта лемма верна.

Задания
№ 1
Напишите программу, которая разделит большие файлы на малые. Каждый малый файл назовите по шаблону «Название статьи.tsv» и сохраните в текущую папку. Скопируйте этот файл во все папки, указанные в качестве категорий, например в Название категории 1/Название подкатегории 1/, Название категории 2/, Еще Название категории/Еще Название подкатегории/Название подподкатегории/.

№ 2
Прочтите все файлы из папки ./Антропогенные географические объекты по алфавиту/, созданной в прошлом задании. Распечатайте с новой строки все слова оригинальных текстов (первый столбец) для которых в разборе указан женский род, а вероятность разбора не меньше половины, в файл текущей директории words.txt.

№ 3
Напишите программу, которая прочтет исходный файл pages.union, очистит его от метаинформации (строк, начинающихся с #) и составит частотный словарь лемм. Выведете частотный словарь в файл dict.csv, указав на каждой строке через запятую лемму и её частоту (отношение числа упоминаний к полному числу лемм). Строки должны быть расположены в порядке убывания частоты.