Advertisement
Guest User

Untitled

a guest
Sep 10th, 2017
133
0
Never
Not a member of Pastebin yet? Sign Up, it unlocks many cool features!
text 2.10 KB | None | 0 0
  1. >>1059319
  2.  
  3. Согласен, проблема есть. К сожалению, просто решения нет. Из того, что пришло в голову:
  4.  
  5. - можно заложить список устойчивых выражений вроде Yahoo!, а также сокращений вроде "г. Москва" или "И. И. Иванов"
  6. - можно смотреть на то, что после Yahoo! идет слово с маленькой буквы
  7.  
  8. Я погуглил ("определение конца преждложения", "sentence boundary detection") статьи по этой теме:
  9.  
  10. - хорошая статья от мейл ру https://habrahabr.ru/company/mailru/blog/112142/
  11. - https://habrahabr.ru/post/111043/
  12. - (англ) https://en.wikipedia.org/wiki/Sentence_boundary_disambiguation - там есть ссылки в конце на исследования
  13. - задача на Kaggle https://inclass.kaggle.com/c/sentence-boundary-detection-msu-2017-1
  14. - в питоновской библиотеке nltk для работы с естественными языками есть токенайзер предложений: http://www.nltk.org/api/nltk.tokenize.html#module-nltk.tokenize.punkt - он вроде работает путем "обучения" на большом объеме размеченных текстов и там есть ссылка на работу, на основе которой он сделан
  15. - гугл (англ) https://www.google.ru/search?q=sentence+boundary+detection&newwindow=1&dcr=0&gbv=1&sei=3yu1WcvtKcWv6ASU0ZzwAg
  16.  
  17. Там во многих методах упоминается "машинное обучение", возможно, тебе придется прочитать про его основы, чтобы понять суть алгоритма.
  18.  
  19. Что касается моей задачи, там можно просто разбивать по точкам. Но может быть стоит для саморазвития почитать про существующие алгоритмы.
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement