Guest User

parser 2ch

a guest
Aug 23rd, 2023
326
0
Never
Not a member of Pastebin yet? Sign Up, it unlocks many cool features!
text 2.53 KB | None | 0 0
  1. import requests
  2. import os
  3. from bs4 import BeautifulSoup
  4.  
  5.  
  6. def download_file(url, folder):
  7. response = requests.get(url)
  8. if response.status_code == 200:
  9. filename = url.split('/')[-1]
  10. filepath = os.path.join(folder, filename)
  11. with open(filepath, 'wb') as file:
  12. file.write(response.content)
  13. print(f"Файл {filename} успешно скачан.")
  14. else:
  15. print(f"Не удалось скачать файл по URL: {url}")
  16.  
  17.  
  18. # Ссылка на страницу сайта
  19. url = 'https://2ch.hk/b/res/292021504.html'
  20.  
  21. # Папка для сохранения файлов
  22. folder = 'C:\\Webm\\Fap'
  23.  
  24. # Получение содержимого страницы
  25. response = requests.get(url)
  26. if response.status_code == 200:
  27. soup = BeautifulSoup(response.content, 'html.parser')
  28.  
  29. # Поиск тегов <a> с расширением .mp4
  30. mp4_links = soup.find_all('a', href=lambda href: href and href.endswith('.mp4'))
  31. for link in mp4_links:
  32. file_url = 'https://2ch.hk' + link['href']
  33. download_file(file_url, folder)
  34.  
  35. # Поиск тегов <a> с расширением .webm
  36. webm_links = soup.find_all('a', href=lambda href: href and href.endswith('.webm'))
  37. for link in webm_links:
  38. file_url = 'https://2ch.hk' + link['href']
  39. download_file(file_url, folder)
  40.  
  41. else:
  42. print(f"Не удалось получить содержимое страницы по URL: {url}")
  43.  
  44. # Вам нужно будет заменить C:\\Webm\\Fap на путь к папке, в которую вы хотите сохранить файлы. Скрипт извлечет все прямые ссылки на .mp4 и .webm файлы со страницы сайта и загрузит их в указанную папку.
  45.  
  46. # Обратите внимание, что для выполнения этого скрипта требуется установить библиотеку BeautifulSoup (pip install beautifulsoup4), если она еще не установлена. Так же следует установить библиотеку requests (pip install requests). Также учтите, что работоспособность скрипта может зависеть от конкретной структуры и разметки страницы сайта, поэтому возможны некоторые модификации, необходимые для его корректной работы.
Add Comment
Please, Sign In to add comment