Advertisement
Not a member of Pastebin yet?
Sign Up,
it unlocks many cool features!
- def sentence_splitter(text):
- '''получает на вход целый текст, записывает по предложениям в отдельный файл, ничего не возвращает'''
- text = text.read()
- sentences = codecs.open('sentences.txt', 'w', 'utf-8-sig')
- reg = re.compile(u'(\\S\\S[.?!])[\n\s]')
- text = re.sub(u'\[.+?\]', '', text)
- text = reg.split(text)
- for i in text:
- if len(i) != 3:
- i=i.rstrip()
- sentences.write(i)
- else:
- i=i.rstrip()
- i+=u'\0'.lstrip()
- i+=u'\n'
- sentences.write(i)
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement