tureg1

Untitled

Dec 25th, 2018
124
0
Never
Not a member of Pastebin yet? Sign Up, it unlocks many cool features!
text 3.08 KB | None | 0 0
  1. Требуется написать многопоточный парсер для vk (40 потоков). Парсер должен работать на Ubuntu 18.04. В парсер подаются ссылки для парсинга юзеров, ссылки на их профили. Проработанные ссылки должны удаляться из списка. Парсер должен скачивать аватарку юзера, и десять последних аватарок (фотки, которые были аватарками, если листать вправо).
  2. Фотографии должны сохраняться в папки, один юзер = одна папка, папка должна называться номером профиля юзера, например, vk.com/xxxxxx/, значит папка будет называться xxxxxx.
  3. Авторизация не нужна, но если попадается юзер у которого аватарки доступны после логина, то ссылка на него должна сохраняться в отдельный текстовый файл, в котором находится список таких же юзеров. Один поток, это всегда = один прокси = один юзерагент, одинаковые. Количество потоков должно регулироваться в конфиге. Прокси так же должны браться из списка. Список прокси оформить в файлик формата JSON, прокси приватные с логином и паролем. Заготовить юзерагентов нужно Вам, в инете есть список актуальных самых популярных юзерагентов. Парсер в минуту должен обрабатывать 40 аккаунтов, желательно парсер реализовать в виде скрипта, который я просто буду запускать кроном раз в минуту.
  4. Если профиль юзера не закрыт, то фотки скачиваются согласно алгоритму описанному выше, если закрыт, то скачивается та фотка, которая видна - одна актуальная аватарка юзера.
  5. Должен быть файл ошибок, в котором должны писаться прокси, если они не работают.
  6. При начале работы выдаю сервер VDS, прокси 40 штук, с авторизацией по логину и паролю. Сервер с LAMP, если вам нужно установить еще какие то компоненты, то ставьте, в таком случае вам нужно написать подробную инструкцию как установить парсер на аналогичный сервер с нуля. Интерфейс для человека не нужен
Advertisement
Add Comment
Please, Sign In to add comment