Advertisement
Not a member of Pastebin yet?
Sign Up,
it unlocks many cool features!
- Краткая документация к проекту LSugg v.1.1
- ----------------------------------------------
- Авторство
- Автор: Lord Alfred
- Блог: https://vk.com/lord.alfred
- Топик на ZennoLab: http://zennolab.com/discussion/threads/lsugg-v-1-parser-poiskovyx-podskazok-s-bolee-chem-25-poiskovikov-suggests-parser.34147/
- ----------------------------------------------
- Лицензия
- Запрещается передавать/продавать шаблон третьим лицам и публиковать где-либо список поисковиков для парсинга.
- ----------------------------------------------
- История изменений
- 1.1 (20.01.2017):
- - добавлен шаблон lsugg_parser - самая простая реализация
- многопоточного парсера поисковых подсказок
- - добавлен ещё один парсер, теперь их 27
- - добавлена переменная is_cached
- 1.0 (11.01.2017): Первая версия с 26 парсерами поисковых подсказок
- ----------------------------------------------
- Описание работы
- Принцип работы с шаблоном основывается на том, чтобы использовать его как кубик "Проект в проекте".
- Входные переменные для задания параметров парсинга:
- IN_query - запрос для парсинга
- IN_count - количество результатов на выходе (не влияет на количество закешированных результатов)
- по умолчанию - 20
- IN_language - язык для парсинга (en, ru, it, de - протестированы, остальные языки смотрите как будут работать)
- по умолчанию - en
- IN_separator - разделитель подсказок на выходе (запятая или символ новой строки)
- IN_show_errors_in_poster - показывать процесс парсинга и ошибки в логе ZennoPoster (для отладки)
- Выходные переменные для получения результатов:
- OUT_keywords - список спаршенных (или полученных с кеша) подсказок по запросу IN_query,
- на языке IN_language,
- в количестве равном или менее IN_count (в случае малого количества),
- разделенных с помощью IN_separator.
- is_cached - не обязательная переменная-индикатор. Она показывает все ли возможные подсказки выпаршены.
- Если в ней "true" - значит все подсказки для текущего запроса спаршены;
- если в ней "false" - значит не все.
- Результаты работы кешируются в папке:
- suggests/
- Имена генерируются следующим образом:
- md5("{-Variable.IN_query-}_{-Variable.IN_language-}")[_full].txt
- Не обязательная часть _full - обозначает, что по данному запросу IN_query с языком IN_language выпаршены все возможные
- подсказки и далее запросы в поисковики не будут идти, будет браться контент только из закешированного файла.
- Аналогичную работу по определению все ли подсказки выпаршены и закешированы выполняет переменная-индикатор is_cached.
- ----------------------------------------------
- Описание lsugg_parser
- Если вам нужно спарсить все подсказки для множества запросов и сложить результаты в ОДИН файл,
- то этот шаблон призван для того, чтобы упросить вам жизнь и чтобы не нужно было делать такой же свой :)
- Шаблон lsugg_parser - это многопоточный парсер поисковых подсказок, в основу которого взят LSugg.
- Чтобы его запустить - сделайте следующее:
- 1. Положите список запросов (каждый с новой строки!) в файл data\keywords.txt - под конец работы этот файл очистится (!)
- 2. Добавьте шаблон lsugg_parser в ZennoPoster
- 3. Введите нужный язык для парсинга во входящих настройках lsugg_parser
- 4. Обязательно включите использование прокси для этого проекта (или часть из парсеров поисковых подсказок может перестать выдавать результат)
- 5. Введите максимальное количество потоков (рекомендую 10-25, но это зависит от количества и качества прокси)
- 6. Основываясь на том, сколько у вас запросов в data\keywords.txt - введите количество выполнений этого шаблона (поле "сколько делать").
- Рекомендую ставить там по следующей формуле: количество запросов * 3
- 7. Запустите парсинг и ожидайте сообщения в логе о том, что все запросы из data\keywords.txt обработаны (их может быть несколько - ничего страшного)
- 8. Если количество выполнений окончено, а сообщение из пункта 7 в логе не появилось - решаем надо ли ещё парсить (смотрите файл data\keywords_parsed.txt) и:
- если нужно дальше - переходите к пункту 6 и повторяйте всё с него;
- если НЕ нужно дальше парсить - всё ок, берите файл data\keywords_parsed.txt и делайте с ним что хотите :)
- PS: возможны ошибки о том, что "Процесс не может получить доступ к файлу ..., так как этот файл используется другим процессом." - ничего страшного,
- такое может быть. Возможно, в следующих версиях я сделаю дополнительную блокировку во время записи в файл.
- PPS: если вам окажется мало результатов, которые будут получены с помощью этого парсера, то вы можете переименовать data\keywords_parsed.txt в data\keywords.txt
- и ещё раз пройтись и спарсить подсказки для подсказок ;-)
- ----------------------------------------------
- Примечания
- Для упрощения понимания работы вместе с шаблоном идет тестовый шаб lsugg_test.xmlz
- и шаблон lsugg_parser.xmlz для многопоточного парсинга подсказок в один файл.
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement