Advertisement
Not a member of Pastebin yet?
Sign Up,
it unlocks many cool features!
- >>1059319
- Согласен, проблема есть. К сожалению, просто решения нет. Из того, что пришло в голову:
- - можно заложить список устойчивых выражений вроде Yahoo!, а также сокращений вроде "г. Москва" или "И. И. Иванов"
- - можно смотреть на то, что после Yahoo! идет слово с маленькой буквы
- Я погуглил ("определение конца преждложения", "sentence boundary detection") статьи по этой теме:
- - хорошая статья от мейл ру https://habrahabr.ru/company/mailru/blog/112142/
- - https://habrahabr.ru/post/111043/
- - (англ) https://en.wikipedia.org/wiki/Sentence_boundary_disambiguation - там есть ссылки в конце на исследования
- - задача на Kaggle https://inclass.kaggle.com/c/sentence-boundary-detection-msu-2017-1
- - в питоновской библиотеке nltk для работы с естественными языками есть токенайзер предложений: http://www.nltk.org/api/nltk.tokenize.html#module-nltk.tokenize.punkt - он вроде работает путем "обучения" на большом объеме размеченных текстов и там есть ссылка на работу, на основе которой он сделан
- - гугл (англ) https://www.google.ru/search?q=sentence+boundary+detection&newwindow=1&dcr=0&gbv=1&sei=3yu1WcvtKcWv6ASU0ZzwAg
- Там во многих методах упоминается "машинное обучение", возможно, тебе придется прочитать про его основы, чтобы понять суть алгоритма.
- Что касается моей задачи, там можно просто разбивать по точкам. Но может быть стоит для саморазвития почитать про существующие алгоритмы.
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement