Guest User

Untitled

a guest
Oct 17th, 2020
59
0
Never
Not a member of Pastebin yet? Sign Up, it unlocks many cool features!
text 1.44 KB | None | 0 0
  1. # Собственно имею +- стандартную структуру спайдера
  2. class QuoteSpider(scrapy.Spider):
  3. name = 'xxx'
  4. start_urls = [
  5. 'https://www.url.com', 'https://www.url2.com'
  6. ]
  7. def parse(self, response):
  8. # Тут у меня находится код, который парсит много ссылок на всякую хрень. Дальше мне нужно, чтобы эти ссылки проверялась в базе данных, собственно я формирую список ссылок, пусть от будет list
  9. list = []
  10. # Ниже отдельно определена асинхронная функция для коннекта к бд через фреймворк asyncpg
  11. formated_url_list = await self.check_matches(list)
  12. # Дальше я хочу, чтобы все эти ссылки перебирались и из каждой из них была спаршена нужная инфа
  13. yield from response.follow_all(actual_url_list, self.parse_page)
  14.  
  15. async def check_something(self, url):
  16. #Какой-то код, который проверяет все ссылки и проверяет, какие из них нужно оставить и формирует новый список
  17. return await formated_url_list
  18.  
  19. def parce_page():
  20. # тут какой-то код, который на выходе даёт items
  21. yield items
  22.  
Add Comment
Please, Sign In to add comment