Advertisement
Not a member of Pastebin yet?
Sign Up,
it unlocks many cool features!
- # -*- coding: utf-8 -*-
- """
- Buscador Web
- Realizar solicitudes HTTP para recuperar información de Internet, se deberá
- importar la biblioteca `urllib` y de ella el módulo `request`.
- El módulo `urllib.request` realiza una solicitud HTTP para recuperar la
- información de una página Web.
- Por ejemplo, para recuperar el HTML de una página web, puede usar la función
- `urlopen()`, en este caso usamos 'https://www.python.org/' como `objetivo`.
- Esto enviará una solicitud HTTP GET a la URL especificada y recuperará el HTML
- de la página web. Luego, el HTML se almacena en la variable `html`.
- Analizar el HTML para extraer la información que desea:
- Ahora que tiene el HTML de la página web, deberá analizarlo para extraer la
- información que desea. Puede usar una biblioteca como `BeautifulSoup` para
- analizar el HTML y extraer la información.
- Para instalar `BeautifulSoup`, deberá ejecutar el siguiente comando:
- $ pip install beautifulsoup4
- Luego puede usar el método `find()` para buscar elementos específicos en el
- HTML y extraer todos los enlaces del HTML.
- [soup.find_all('a')] encuentra todos los elementos `a`
- (es decir, los enlaces) en el HTML y los almacenará en la lista de `links`.
- Almacene o muestre la información:
- Una vez que haya extraído la información que desea, puede almacenarla en
- un archivo o base de datos, o mostrársela en pantalla.
- Usamos la función `print()` para mostrar los enlaces que extrajo:
- En este caso vamos a redirigir la salida de la función `print()` a
- un archivo de texto previamente creado: `resultado.txt`
- Creado con `VSCodium` por @alpfa, dom 08 ene 2023
- """
- import urllib.request
- response = urllib.request.urlopen('https://www.python.org/')
- html = response.read()
- from bs4 import BeautifulSoup
- soup = BeautifulSoup(html, 'html.parser')
- links = soup.find_all('a')
- with open("/home/alpfa/enviroments/educatio/resultado.txt", 'w') as resultado:
- for link in links:
- print(link.get('href'), file=resultado)
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement