Advertisement
Guest User

Untitled

a guest
Jun 19th, 2018
88
0
Never
Not a member of Pastebin yet? Sign Up, it unlocks many cool features!
Python 10.00 KB | None | 0 0
  1. import pymorphy2
  2. import gensim
  3.  
  4.  
  5. class RuTokenizer:
  6.     __stopwords = {
  7.         'а',
  8.         'е',
  9.         'и',
  10.         'ж',
  11.         'м',
  12.         'о',
  13.         'на',
  14.         'не',
  15.         'ни',
  16.         'об',
  17.         'но',
  18.         'он',
  19.         'мне',
  20.         'мои',
  21.         'мож',
  22.         'она',
  23.         'они',
  24.         'оно',
  25.         'мной',
  26.         'много',
  27.         'многочисленное',
  28.         'многочисленная',
  29.         'многочисленные',
  30.         'многочисленный',
  31.         'мною',
  32.         'мой',
  33.         'мог',
  34.         'могут',
  35.         'можно',
  36.         'может',
  37.         'можхо',
  38.         'мор',
  39.         'моя',
  40.         'моё',
  41.         'мочь',
  42.         'над',
  43.         'нее',
  44.         'оба',
  45.         'нам',
  46.         'нем',
  47.         'нами',
  48.         'ними',
  49.         'мимо',
  50.         'немного',
  51.         'одной',
  52.         'одного',
  53.         'менее',
  54.         'однажды',
  55.         'однако',
  56.         'меня',
  57.         'нему',
  58.         'меньше',
  59.         'ней',
  60.         'наверху',
  61.         'него',
  62.         'ниже',
  63.         'мало',
  64.         'надо',
  65.         'один',
  66.         'одиннадцать',
  67.         'одиннадцатый',
  68.         'назад',
  69.         'наиболее',
  70.         'недавно',
  71.         'миллионов',
  72.         'недалеко',
  73.         'между',
  74.         'низко',
  75.         'меля',
  76.         'нельзя',
  77.         'нибудь',
  78.         'непрерывно',
  79.         'наконец',
  80.         'никогда',
  81.         'никуда',
  82.         'нас',
  83.         'наш',
  84.         'нет',
  85.         'нею',
  86.         'неё',
  87.         'них',
  88.         'мира',
  89.         'наша',
  90.         'наше',
  91.         'наши',
  92.         'ничего',
  93.         'начала',
  94.         'нередко',
  95.         'несколько',
  96.         'обычно',
  97.         'опять',
  98.         'около',
  99.         'мы',
  100.         'ну',
  101.         'нх',
  102.         'от',
  103.         'отовсюду',
  104.         'особенно',
  105.         'нужно',
  106.         'очень',
  107.         'отсюда',
  108.         'в',
  109.         'во',
  110.         'вон',
  111.         'вниз',
  112.         'внизу',
  113.         'вокруг',
  114.         'вот',
  115.         'восемнадцать',
  116.         'восемнадцатый',
  117.         'восемь',
  118.         'восьмой',
  119.         'вверх',
  120.         'вам',
  121.         'вами',
  122.         'важное',
  123.         'важная',
  124.         'важные',
  125.         'важный',
  126.         'вдали',
  127.         'везде',
  128.         'ведь',
  129.         'вас',
  130.         'ваш',
  131.         'ваша',
  132.         'ваше',
  133.         'ваши',
  134.         'впрочем',
  135.         'весь',
  136.         'вдруг',
  137.         'вы',
  138.         'все',
  139.         'второй',
  140.         'всем',
  141.         'всеми',
  142.         'времени',
  143.         'время',
  144.         'всему',
  145.         'всего',
  146.         'всегда',
  147.         'всех',
  148.         'всею',
  149.         'всю',
  150.         'вся',
  151.         'всё',
  152.         'всюду',
  153.         'г',
  154.         'год',
  155.         'говорил',
  156.         'говорит',
  157.         'года',
  158.         'году',
  159.         'где',
  160.         'да',
  161.         'ее',
  162.         'за',
  163.         'из',
  164.         'ли',
  165.         'же',
  166.         'им',
  167.         'до',
  168.         'по',
  169.         'ими',
  170.         'под',
  171.         'иногда',
  172.         'довольно',
  173.         'именно',
  174.         'долго',
  175.         'позже',
  176.         'более',
  177.         'должно',
  178.         'пожалуйста',
  179.         'значит',
  180.         'иметь',
  181.         'больше',
  182.         'пока',
  183.         'ему',
  184.         'имя',
  185.         'пор',
  186.         'пора',
  187.         'потом',
  188.         'потому',
  189.         'после',
  190.         'почему',
  191.         'почти',
  192.         'посреди',
  193.         'ей',
  194.         'два',
  195.         'две',
  196.         'двенадцать',
  197.         'двенадцатый',
  198.         'двадцать',
  199.         'двадцатый',
  200.         'двух',
  201.         'его',
  202.         'дел',
  203.         'или',
  204.         'без',
  205.         'день',
  206.         'занят',
  207.         'занята',
  208.         'занято',
  209.         'заняты',
  210.         'действительно',
  211.         'давно',
  212.         'девятнадцать',
  213.         'девятнадцатый',
  214.         'девять',
  215.         'девятый',
  216.         'даже',
  217.         'алло',
  218.         'жизнь',
  219.         'далеко',
  220.         'близко',
  221.         'здесь',
  222.         'дальше',
  223.         'для',
  224.         'лет',
  225.         'зато',
  226.         'даром',
  227.         'первый',
  228.         'перед',
  229.         'затем',
  230.         'зачем',
  231.         'лишь',
  232.         'десять',
  233.         'десятый',
  234.         'ею',
  235.         'её',
  236.         'их',
  237.         'бы',
  238.         'еще',
  239.         'при',
  240.         'был',
  241.         'про',
  242.         'процентов',
  243.         'против',
  244.         'просто',
  245.         'бывает',
  246.         'бывь',
  247.         'если',
  248.         'люди',
  249.         'была',
  250.         'были',
  251.         'было',
  252.         'будем',
  253.         'будет',
  254.         'будете',
  255.         'будешь',
  256.         'прекрасно',
  257.         'буду',
  258.         'будь',
  259.         'будто',
  260.         'будут',
  261.         'ещё',
  262.         'пятнадцать',
  263.         'пятнадцатый',
  264.         'друго',
  265.         'другое',
  266.         'другой',
  267.         'другие',
  268.         'другая',
  269.         'других',
  270.         'есть',
  271.         'пять',
  272.         'быть',
  273.         'лучше',
  274.         'пятый',
  275.         'к',
  276.         'ком',
  277.         'конечно',
  278.         'кому',
  279.         'кого',
  280.         'когда',
  281.         'которой',
  282.         'которого',
  283.         'которая',
  284.         'которые',
  285.         'который',
  286.         'которых',
  287.         'кем',
  288.         'каждое',
  289.         'каждая',
  290.         'каждые',
  291.         'каждый',
  292.         'кажется',
  293.         'как',
  294.         'какой',
  295.         'какая',
  296.         'кто',
  297.         'кроме',
  298.         'куда',
  299.         'кругом',
  300.         'с',
  301.         'т',
  302.         'у',
  303.         'я',
  304.         'та',
  305.         'те',
  306.         'уж',
  307.         'со',
  308.         'то',
  309.         'том',
  310.         'снова',
  311.         'тому',
  312.         'совсем',
  313.         'того',
  314.         'тогда',
  315.         'тоже',
  316.         'собой',
  317.         'тобой',
  318.         'собою',
  319.         'тобою',
  320.         'сначала',
  321.         'только',
  322.         'уметь',
  323.         'тот',
  324.         'тою',
  325.         'хорошо',
  326.         'хотеть',
  327.         'хочешь',
  328.         'хоть',
  329.         'хотя',
  330.         'свое',
  331.         'свои',
  332.         'твой',
  333.         'своей',
  334.         'своего',
  335.         'своих',
  336.         'свою',
  337.         'твоя',
  338.         'твоё',
  339.         'раз',
  340.         'уже',
  341.         'сам',
  342.         'там',
  343.         'тем',
  344.         'чем',
  345.         'сама',
  346.         'сами',
  347.         'теми',
  348.         'само',
  349.         'рано',
  350.         'самом',
  351.         'самому',
  352.         'самой',
  353.         'самого',
  354.         'семнадцать',
  355.         'семнадцатый',
  356.         'самим',
  357.         'самими',
  358.         'самих',
  359.         'саму',
  360.         'семь',
  361.         'чему',
  362.         'раньше',
  363.         'сейчас',
  364.         'чего',
  365.         'сегодня',
  366.         'себе',
  367.         'тебе',
  368.         'сеаой',
  369.         'человек',
  370.         'разве',
  371.         'теперь',
  372.         'себя',
  373.         'тебя',
  374.         'седьмой',
  375.         'спасибо',
  376.         'слишком',
  377.         'так',
  378.         'такое',
  379.         'такой',
  380.         'такие',
  381.         'также',
  382.         'такая',
  383.         'сих',
  384.         'тех',
  385.         'чаще',
  386.         'четвертый',
  387.         'через',
  388.         'часто',
  389.         'шестой',
  390.         'шестнадцать',
  391.         'шестнадцатый',
  392.         'шесть',
  393.         'четыре',
  394.         'четырнадцать',
  395.         'четырнадцатый',
  396.         'сколько',
  397.         'сказал',
  398.         'сказала',
  399.         'сказать',
  400.         'ту',
  401.         'ты',
  402.         'три',
  403.         'эта',
  404.         'эти',
  405.         'что',
  406.         'это',
  407.         'чтоб',
  408.         'этом',
  409.         'этому',
  410.         'этой',
  411.         'этого',
  412.         'чтобы',
  413.         'этот',
  414.         'стал',
  415.         'туда',
  416.         'этим',
  417.         'этими',
  418.         'рядом',
  419.         'тринадцать',
  420.         'тринадцатый',
  421.         'этих',
  422.         'третий',
  423.         'тут',
  424.         'эту',
  425.         'суть',
  426.         'чуть',
  427.         'тысяч',
  428.     }
  429.  
  430.     __morph = pymorphy2.MorphAnalyzer()
  431.  
  432.     def tokenize(self, text):
  433.         result_words = []
  434.         for word in gensim.utils.simple_preprocess(text):
  435.             parsed_words = self.__morph.parse(word)
  436.             if len(parsed_words) == 0:
  437.                 continue
  438.             normalized_word = parsed_words[0].normal_form
  439.             if len(normalized_word) == 0:
  440.                 continue
  441.             if normalized_word in self.__stopwords:
  442.                 continue
  443.             result_words.append(normalized_word)
  444.         return result_words
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement