Advertisement
Not a member of Pastebin yet?
Sign Up,
it unlocks many cool features!
- 1. Подготовка
- 1.1. Нормализация текста
- Приведение в нижний регистр
- Удаление некоторых разделителей и спец. символов
- Удаление союзов и предлогов
- 1.2. Фичеризация текста
- для классификации и разметки
- Bag-of-Words: 1 слово = 1 фича
- для нормализации
- 3-символьные N-gramms.
- 2. Обучение и извлечение значений
- 2.1. Отбираются наиболее популярные (по количеству использований) CustomFields.
- Отдельно отбираются CustomFields характеризуюие тип продукта (Тип, Вид).
- 2.2. Определение "Типа"
- Класс задачи - классификация. На обучение подается всеь тайтл->значение поля с известным типом.
- При определении подаем весь тайтл - получем возможные Типы. Достаем топовый, если его вес выше заданного порога.
- 2.3 Определение значений параметров
- Класс задачи - разметка текста.
- Разметка текста выполняется перебором различных комбинаций фраз с определением принадлежности фрзу - какому-либо CF.
- Для определения принадлежности используется модель для классификации. В нее на обучение передаются все_значения_CF -> названия_CF.
- Для приведения извлеченных значений к уже существующим значениям CF используется модель классифкации. При обучении все возможные значения CF приравниваются сами к себе.
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement