Buscador Web. Simple. Python

# -*- coding: utf-8 -*-

"""
Buscador Web

Realizar solicitudes HTTP para recuperar información de Internet, se deberá
importar la biblioteca `urllib` y de ella el módulo `request`.

El módulo `urllib.request` realiza una solicitud HTTP para recuperar la
información de una página Web.

Por ejemplo, para recuperar el HTML de una página web, puede usar la función
`urlopen()`, en este caso usamos 'https://www.python.org/' como `objetivo`.

Esto enviará una solicitud HTTP GET a la URL especificada y recuperará el HTML
de la página web. Luego, el HTML se almacena en la variable `html`.

     Analizar el HTML para extraer la información que desea:

Ahora que tiene el HTML de la página web, deberá analizarlo para extraer la
información que desea. Puede usar una biblioteca como `BeautifulSoup` para
analizar el HTML y extraer la información.

Para instalar `BeautifulSoup`, deberá ejecutar el siguiente comando:

    $ pip install beautifulsoup4

Luego puede usar el método `find()` para buscar elementos específicos en el
HTML y extraer todos los enlaces del HTML.

[soup.find_all('a')] encuentra todos los elementos `a`
(es decir, los enlaces) en el HTML y los almacenará en la lista de `links`.

     Almacene o muestre la información:

Una vez que haya extraído la información que desea, puede almacenarla en
un archivo o base de datos, o mostrársela en pantalla.

Usamos la función `print()` para mostrar los enlaces que extrajo:

En este caso vamos a redirigir la salida de la función `print()` a
un archivo de texto previamente creado: `resultado.txt`

Creado con `VSCodium` por @alpfa, dom 08 ene 2023

"""

import urllib.request

response = urllib.request.urlopen('https://www.python.org/')
html = response.read()

from bs4 import BeautifulSoup

soup = BeautifulSoup(html, 'html.parser')

links = soup.find_all('a')

with open("/home/alpfa/enviroments/educatio/resultado.txt", 'w') as resultado:
    for link in links:
        print(link.get('href'), file=resultado)