rest

import matplotlib.pyplot as plt
import pandas
from pandas.plotting import scatter_matrix

from sklearn import model_selection
from sklearn.model_selection import train_test_split

from sklearn.naive_bayes import GaussianNB
from sklearn import metrics

url="C:/Users/cwaichanguru/Documents/winequalityred.csv"
names=['fixed acidity','volatile acidity ','citric acid' ,'residual sugar', 'chlorides','free sulfur dioxide','total sulfur dioxide',
       'density','pH','sulphates','alcohol','quality']
dataset=pandas.read_csv(url,names=names)

print(dataset.shape)
print(dataset.head(5))
print(dataset)
print(dataset.describe())

dataset.plot(kind='box',subplots=True,layout=(4,4),sharex=False,sharey=False)
plt.show()

dataset.hist()
plt.show()

scatter_matrix(dataset)
plt.show()

array=dataset.values
X=array[:,0:12] #Extract fields
Y=array[:,12] #Extract results

#Split the data into 80%, 20% for training and testing
validation_size=0.20
seed=7
X_train,X_test,Y_train,Y_test=model_selection.train_test_split\
    (X,Y, test_size=validation_size,random_state=seed)

print("X_train",X_train)
print("X_test",X_test)
print("Y_train",Y_train)
print("Y_test",Y_test)

model=GaussianNB()
model=model.fit(X_train,Y_train)

y_predicted =model.predict(X_test)
print(metrics.accuracy_score(Y_test,y_predicted))