Python

#! /usr/bin/env python
# -*- coding: utf8 -*-
import requests
import bs4 as bs
# Declaramos un array de paginas web donde extraeremos la data
url_txt = ['https://www.baradent.cl/categorias/endodoncia',
'https://www.baradent.cl/categorias/cirugia',
'https://www.baradent.cl/categorias/desechables',
'https://www.baradent.cl/categorias/ortodoncia',
'https://www.baradent.cl/categorias/rehabilitacion',
'https://www.baradent.cl/categorias/pediatria-y-prevencion-40',
'https://www.baradent.cl/categorias/laboratorio-dental',
'https://www.baradent.cl/categorias/pediatria-y-prevencion-40',
'https://www.baradent.cl/categorias/laboratorio-dental',
'https://www.baradent.cl/categorias/pediatria-y-prevencion',
'https://www.baradent.cl/categorias/operatoria-y-estetica',
'https://www.baradent.cl/categorias/desinfeccion-y-esterilizacion',
'https://www.baradent.cl/categorias/periodoncia',
'https://www.baradent.cl/categorias/fresas-y-pulidores',
'https://www.baradent.cl/categorias/sildent']
# Comenzamos a crear nuestro archivo csv
filename = "ejemplo_archivo.csv"
f = open(filename, "a")
# Recorremos el array y extraemos los datos utilizando request y luego recorriendo el sitio web utilizando BeautifulSoup
# Debemos indicar el objeto html de referencia que contiene la info a extraer
for ss in url_txt:
    r = requests.get(ss)
    soup = bs.BeautifulSoup(r.content, 'html.parser')
    divs = soup.find_all("li", class_="item")#Este es el objeto que vamos a extraer información
	# recorremos cada uno de los objetos dentro de esta pagina según la herencia de objetos html que tengan
    for item in divs:
        imagen = item.div.a.img["src"]
        nombre = item.h2.a.text
        url_producto = item.h2.a["href"]
        format_nombre = nombre.replace(",", " ")
        precio = getattr(item.contents[9].find('span', attrs={'class': 'price'}), "text", 0).strip()
        f.write(u' '.join((format_nombre + ",", precio + ",", imagen + ",","Accesorios" + "\n")).encode('utf-8'))
f.close()