Advertisement
JPablos

Buscador Web. Simple. Python

Jan 8th, 2023
1,230
0
Never
Not a member of Pastebin yet? Sign Up, it unlocks many cool features!
Python 2.02 KB | Science | 0 0
  1. # -*- coding: utf-8 -*-
  2.  
  3. """
  4. Buscador Web
  5.  
  6. Realizar solicitudes HTTP para recuperar información de Internet, se deberá
  7. importar la biblioteca `urllib` y de ella el módulo `request`.
  8.  
  9. El módulo `urllib.request` realiza una solicitud HTTP para recuperar la
  10. información de una página Web.
  11.  
  12. Por ejemplo, para recuperar el HTML de una página web, puede usar la función
  13. `urlopen()`, en este caso usamos 'https://www.python.org/' como `objetivo`.
  14.  
  15. Esto enviará una solicitud HTTP GET a la URL especificada y recuperará el HTML
  16. de la página web. Luego, el HTML se almacena en la variable `html`.
  17.  
  18.     Analizar el HTML para extraer la información que desea:
  19.  
  20. Ahora que tiene el HTML de la página web, deberá analizarlo para extraer la
  21. información que desea. Puede usar una biblioteca como `BeautifulSoup` para
  22. analizar el HTML y extraer la información.
  23.  
  24. Para instalar `BeautifulSoup`, deberá ejecutar el siguiente comando:
  25.  
  26.    $ pip install beautifulsoup4
  27.  
  28. Luego puede usar el método `find()` para buscar elementos específicos en el
  29. HTML y extraer todos los enlaces del HTML.
  30.  
  31. [soup.find_all('a')] encuentra todos los elementos `a`
  32. (es decir, los enlaces) en el HTML y los almacenará en la lista de `links`.
  33.  
  34.     Almacene o muestre la información:
  35.  
  36. Una vez que haya extraído la información que desea, puede almacenarla en
  37. un archivo o base de datos, o mostrársela en pantalla.
  38.  
  39. Usamos la función `print()` para mostrar los enlaces que extrajo:
  40.  
  41. En este caso vamos a redirigir la salida de la función `print()` a
  42. un archivo de texto previamente creado: `resultado.txt`
  43.  
  44. Creado con `VSCodium` por @alpfa, dom 08 ene 2023
  45.  
  46. """
  47.  
  48. import urllib.request
  49.  
  50. response = urllib.request.urlopen('https://www.python.org/')
  51. html = response.read()
  52.  
  53. from bs4 import BeautifulSoup
  54.  
  55. soup = BeautifulSoup(html, 'html.parser')
  56.  
  57. links = soup.find_all('a')
  58.  
  59. with open("/home/alpfa/enviroments/educatio/resultado.txt", 'w') as resultado:
  60.     for link in links:
  61.         print(link.get('href'), file=resultado)
  62.  
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement