Advertisement
Guest User

Untitled

a guest
Dec 9th, 2019
118
0
Never
Not a member of Pastebin yet? Sign Up, it unlocks many cool features!
text 2.08 KB | None | 0 0
  1. 1. Подготовка
  2. 1.1. Нормализация текста
  3. Приведение в нижний регистр
  4. Удаление некоторых разделителей и спец. символов
  5. Удаление союзов и предлогов
  6.  
  7. 1.2. Фичеризация текста
  8. для классификации и разметки
  9. Bag-of-Words: 1 слово = 1 фича
  10. для нормализации
  11. 3-символьные N-gramms.
  12.  
  13. 2. Обучение и извлечение значений
  14.  
  15. 2.1. Отбираются наиболее популярные (по количеству использований) CustomFields.
  16. Отдельно отбираются CustomFields характеризуюие тип продукта (Тип, Вид).
  17.  
  18. 2.2. Определение "Типа"
  19. Класс задачи - классификация. На обучение подается всеь тайтл->значение поля с известным типом.
  20. При определении подаем весь тайтл - получем возможные Типы. Достаем топовый, если его вес выше заданного порога.
  21.  
  22. 2.3 Определение значений параметров
  23. Класс задачи - разметка текста.
  24. Разметка текста выполняется перебором различных комбинаций фраз с определением принадлежности фрзу - какому-либо CF.
  25. Для определения принадлежности используется модель для классификации. В нее на обучение передаются все_значения_CF -> названия_CF.
  26. Для приведения извлеченных значений к уже существующим значениям CF используется модель классифкации. При обучении все возможные значения CF приравниваются сами к себе.
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement