Práctica 1 (incompleta)

#Daniel Bedialauneta y Athenea Beltrán
#Práctica 1
from string import punctuation
from math import sqrt
def histograma(email):
    letras="abcdefghijklmnopqrstuvwxyz"
    d=dict()
    fp=open(email,"r",encoding='utf-8')
    linea=fp.readline()
    while linea!="\n":
        linea=fp.readline()
    linea=fp.readline()
    while linea:
        for i in linea.split():
            i=i.lower().strip(punctuation)
            if i=="":
                continue
            bien=True
            for j in i:
                if j not in letras:
                    bien=False
                    break
            if bien:
                if i in d:
                    d[i]+=1
                else:
                    d[i]=1
        linea=fp.readline()
    return d

def suma_histogramas(dp,d): #dp=diccionario principal (diccionario suma), d=diccionario parcial
    for i in d:
        if i in dp:
            dp[i]+=d[i]
        else:
            dp[i]=d[i]
    return dp

def normalizacion(d): #d=diccionario
    sumatorio=0
    for i in d:
        sumatorio+=d[i]
    for i in d:
        d[i]=d[i]/sumatorio
    return d

def frecuentes(d):
    media=0
    sumatorio=0
    for i in d:
        sumatorio+=d[i]
    media=sumatorio/len(d)
    lista=[]
    for i in d:
        if d[i]>=3*media:
            lista.append(i)
    return lista

def raras(d,n=4):
    lista=[]
    for i in d:
        if d[i]<=n:
            lista.append(i)
    return lista

def borrar_palabras(d,lista1,lista2):
    for i in lista1+lista2:
        if i in d:
            del d[i]
    return d

def d_euclidea(hx,hc,suma):
    for w in hx:
        if w in c:
            suma-=hc[w]**2
            suma+=(hx[w]-hc[w])**2
        else:
            suma+=hx[w]**2
    return sqrt(suma)

def d_superposicion(hx,hc):
    suma=0
    for w in hx:
        if w in hc:
            suma=suma+min(hx[w],hc[w])
    return 1-suma

def d_correlacion(hx,hc):
    suma=0
    for w in hx:
        if w in hc:
            suma+=hx[w]*hc[w]
    return 1-suma

#Programa
fp=open("metalista_train.txt","r")
d_clases=dict()
for clase in fp:
    fp2=open(clase[:-1],"r")
    d_clase=dict()
    for linea2 in fp2:
        d_parcial=histograma(linea2[:-1])
        d_clase=suma_histogramas(d_clase,d_parcial)
    d_clases[clase[:-1]]=d_clase
    fp2.close()
fp.close()
d_lengua=dict()
for clase in d_clases:
    d_lengua=suma_histogramas(d_lengua,d_clases[clase])
lista1=frecuentes(d_lengua)
lista2=raras(d_lengua)
del d_lengua
for clase in d_clases:
    d_clases[clase]=normalizacion(borrar_palabras(d_clases[clase],lista1,lista2))
#Hasta aquí obtenemos el diccionario de cada clase, d_clases[clase], guardados en un diccionario de cada clase llamado d_clases

fp=open("metalista_test.txt","r")
errores=[]
for clase in fp:
    fp2=open(clase[:-1],"r")
    for email in fp2:
        lista=[]
        d_email=histograma(email[:-1])
        for clase in d_clases:
            lista.append(d_superposicion(d_email,d_clases[clase]))