Not a member of Pastebin yet?
Sign Up,
it unlocks many cool features!
- # Собственно имею +- стандартную структуру спайдера
- class QuoteSpider(scrapy.Spider):
- name = 'xxx'
- start_urls = [
- 'https://www.url.com', 'https://www.url2.com'
- ]
- def parse(self, response):
- # Тут у меня находится код, который парсит много ссылок на всякую хрень. Дальше мне нужно, чтобы эти ссылки проверялась в базе данных, собственно я формирую список ссылок, пусть от будет list
- list = []
- # Ниже отдельно определена асинхронная функция для коннекта к бд через фреймворк asyncpg
- formated_url_list = await self.check_matches(list)
- # Дальше я хочу, чтобы все эти ссылки перебирались и из каждой из них была спаршена нужная инфа
- yield from response.follow_all(actual_url_list, self.parse_page)
- async def check_something(self, url):
- #Какой-то код, который проверяет все ссылки и проверяет, какие из них нужно оставить и формирует новый список
- return await formated_url_list
- def parce_page():
- # тут какой-то код, который на выходе даёт items
- yield items
Add Comment
Please, Sign In to add comment