Untitled

>>1059319

Согласен, проблема есть. К сожалению, просто решения нет. Из того, что пришло в голову:

- можно заложить список устойчивых выражений вроде Yahoo!, а также сокращений вроде "г. Москва" или "И. И. Иванов"
- можно смотреть на то, что после Yahoo! идет слово с маленькой буквы

Я погуглил ("определение конца преждложения", "sentence boundary detection") статьи по этой теме:

- хорошая статья от мейл ру https://habrahabr.ru/company/mailru/blog/112142/
- https://habrahabr.ru/post/111043/
- (англ) https://en.wikipedia.org/wiki/Sentence_boundary_disambiguation - там есть ссылки в конце на исследования
- задача на Kaggle https://inclass.kaggle.com/c/sentence-boundary-detection-msu-2017-1
- в питоновской библиотеке nltk для работы с естественными языками есть токенайзер предложений: http://www.nltk.org/api/nltk.tokenize.html#module-nltk.tokenize.punkt - он вроде работает путем "обучения" на большом объеме размеченных текстов и там есть ссылка на работу, на основе которой он сделан
- гугл (англ) https://www.google.ru/search?q=sentence+boundary+detection&newwindow=1&dcr=0&gbv=1&sei=3yu1WcvtKcWv6ASU0ZzwAg

Там во многих методах упоминается "машинное обучение", возможно, тебе придется прочитать про его основы, чтобы понять суть алгоритма.

Что касается моей задачи, там можно просто разбивать по точкам. Но может быть стоит для саморазвития почитать про существующие алгоритмы.