Advertisement
Not a member of Pastebin yet?
Sign Up,
it unlocks many cool features!
- #! /usr/bin/env python
- # -*- coding: utf8 -*-
- import requests
- import bs4 as bs
- # Declaramos un array de paginas web donde extraeremos la data
- url_txt = ['https://www.baradent.cl/categorias/endodoncia',
- 'https://www.baradent.cl/categorias/cirugia',
- 'https://www.baradent.cl/categorias/desechables',
- 'https://www.baradent.cl/categorias/ortodoncia',
- 'https://www.baradent.cl/categorias/rehabilitacion',
- 'https://www.baradent.cl/categorias/pediatria-y-prevencion-40',
- 'https://www.baradent.cl/categorias/laboratorio-dental',
- 'https://www.baradent.cl/categorias/pediatria-y-prevencion-40',
- 'https://www.baradent.cl/categorias/laboratorio-dental',
- 'https://www.baradent.cl/categorias/pediatria-y-prevencion',
- 'https://www.baradent.cl/categorias/operatoria-y-estetica',
- 'https://www.baradent.cl/categorias/desinfeccion-y-esterilizacion',
- 'https://www.baradent.cl/categorias/periodoncia',
- 'https://www.baradent.cl/categorias/fresas-y-pulidores',
- 'https://www.baradent.cl/categorias/sildent']
- # Comenzamos a crear nuestro archivo csv
- filename = "ejemplo_archivo.csv"
- f = open(filename, "a")
- # Recorremos el array y extraemos los datos utilizando request y luego recorriendo el sitio web utilizando BeautifulSoup
- # Debemos indicar el objeto html de referencia que contiene la info a extraer
- for ss in url_txt:
- r = requests.get(ss)
- soup = bs.BeautifulSoup(r.content, 'html.parser')
- divs = soup.find_all("li", class_="item")#Este es el objeto que vamos a extraer información
- # recorremos cada uno de los objetos dentro de esta pagina según la herencia de objetos html que tengan
- for item in divs:
- imagen = item.div.a.img["src"]
- nombre = item.h2.a.text
- url_producto = item.h2.a["href"]
- format_nombre = nombre.replace(",", " ")
- precio = getattr(item.contents[9].find('span', attrs={'class': 'price'}), "text", 0).strip()
- f.write(u' '.join((format_nombre + ",", precio + ",", imagen + ",","Accesorios" + "\n")).encode('utf-8'))
- f.close()
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement