Untitled

import csv
import pandas
import sklearn
import numpy as np
from sklearn.feature_extraction.text import CountVectorizer, TfidfTransformer
from sklearn.naive_bayes import MultinomialNB, BernoulliNB
from sklearn.svm import LinearSVC
from sklearn.metrics import confusion_matrix,accuracy_score
from sklearn.pipeline import make_pipeline
from sklearn.tree import DecisionTreeClassifier
from sklearn.feature_extraction.text import TfidfVectorizer

messages = pandas.read_csv('SMSSpamCollection.txt', sep='\t',
                           names=["label", "data"])
test = pandas.read_csv('testspam', sep='\t',
                           names=["label", "data"])
x_train = messages.data
x_test = test.data
y_train = messages.label
y_test = test.label

cv=CountVectorizer(stop_words='english')
cv.fit_transform(x_train)
freq_term_matrix = cv.transform(x_train)
tf=TfidfTransformer()
tf.fit_transform(freq_term_matrix)
tf_idf_matrix = tf.transform(freq_term_matrix)
train_label=np.zeros(len(y_train))
for i in range(len(y_train)):
    if(y_train[i]=='spam'):
        train_label[i]=1

cv_test=CountVectorizer(stop_words='english')
cv_test.fit_transform(x_test)
freq_term_matrix_test = cv.transform(x_test)
tf_test=TfidfTransformer()
tf_test.fit_transform(freq_term_matrix_test)
tf_idf_matrix_test = tf_test.transform(freq_term_matrix_test)
test_label=np.zeros(len(y_test))
for j in range(len(y_test)):
    if(y_test[j]=='spam'):
        test_label[j]=1


model1 = LinearSVC()
model2 = MultinomialNB()
model3 = BernoulliNB()
model4 = DecisionTreeClassifier()

model1.fit(tf_idf_matrix.todense(),train_label)
model2.fit(tf_idf_matrix.todense(),train_label)
model3.fit(tf_idf_matrix.todense(),train_label)
model4.fit(tf_idf_matrix.todense(),train_label)

result1 = model1.predict(tf_idf_matrix_test.todense() )
result2 = model2.predict(tf_idf_matrix_test.todense() )
result3 = model3.predict(tf_idf_matrix_test.todense() )
result4 = model4.predict(tf_idf_matrix_test.todense() )

mat = confusion_matrix(test_label ,result1)
mat1 = confusion_matrix(test_label ,result2)
mat2 = confusion_matrix(test_label ,result3)
mat3 = confusion_matrix(test_label ,result4)

x = [[0 for x in range(4)] for y in range(5)]
x[0][0] = 'FD/M'
x[1][0] = 'SVM'
x[2][0] = 'MNB'
x[3][0] = 'BNB'
x[4][0] = 'DTC'
x[0][1] = 'acc'
x[0][2] = 'ham'
x[0][3] = 'spam'
x[1][1] = accuracy_score(test_label, result1)
x[2][1] = accuracy_score(test_label, result2)
x[3][1] = accuracy_score(test_label, result3)
x[4][1] = accuracy_score(test_label, result4)
x[1][2] = mat[0][0] / (mat[0][0] + mat[0][1])
x[2][2] = mat1[0][0] / (mat1[0][0] + mat1[0][1])
x[3][2] = mat2[0][0] / (mat2[0][0] + mat2[0][1])
x[4][2] = mat3[0][0] / (mat3[0][0] + mat3[0][1])
x[1][3] = mat[1][1] / (mat[1][0] + mat[1][1])
x[2][3] = mat1[1][1] / (mat1[1][0] + mat1[1][1])
x[3][3] = mat2[1][1] / (mat2[1][0] + mat2[1][1])
x[4][3] = mat3[1][1] / (mat3[1][0] + mat3[1][1])

for i in range(len(x)):
    for j in range(len(x[i])):
        if ((i == 0) or (j == 0)):
            print(x[i][j], end=' ')
        else:
            print(np.around(x[i][j], decimals=2), end=' ')
    print()