Untitled

from gensim.models import Word2Vec

import json

# define training data
# sentences = [['this', 'is', 'the', 'first', 'sentence', 'for', 'word2vec'],
#           ['this', 'is', 'the', 'second', 'sentence'],
#           ['yet', 'another', 'sentence'],
#           ['one', 'more', 'sentence'],
#           ['one', 'another', 'sent'],
#           ['and', 'the', 'final', 'sentence']]
f = open('text.txt', 'r')
text = f.readlines()

sentences2 = []
sentences2.append(text[0].split(' '))
sentences2.append(text[1].split(' '))
sentences2.append(text[3].split(' '))
sentences2.append(text[5].split(' '))

textRes = text[0].split(' ')


# sentences = [['первое', 'первое', 'первое', 'первое', 'первое', 'первое', 'первое'],
#              ['второе', 'второе', 'второе', 'второе', 'второе']]

model = Word2Vec(sentences2, min_count=1)
#
words = list(model.wv.vocab)
#
model.save('model.bin')

new_model = Word2Vec.load('model.bin')
# print(new_model)

print(new_model.most_similar(positive=['будущее'], topn=10))