asd

# -*- coding: utf-8 -*-
"""
Created on Mon Feb 24 19:53:22 2020

@author: Ridwan
"""

#1. Load dataset

#impor library panda untuk membaca data
import pandas

# membaca file dan direktori tempat iris.data.csv disimpan
direktori = "hepatitis.data.csv"

# memberi nama variabel
names = ['class','age', 'sex','steroid','antiviral','fatigue', 'malaise','anorexia','liver-big','liver-firm', 'spleen-palpable','spiders','ascites','varices', 'bilirubin','alk-phosphate','sgot','albumin', 'protime','histology']

# membaca data dengan library panda
dataset = pandas.read_csv(direktori, names=names, na_values=["?"])


#2. Ringkasan dari dataset Sebelum di Preprocess

#mengecek jumlah baris dan kolom
print(dataset.shape)

#melihat 20 baris pertama dari dataset
print(dataset.head(20))

# melihat ringkasan statistik dari setiap atribut, yakni count, unique, top dan freq
print(dataset.describe())

#melihat detail data berdasarkan variabel, misal jumlah baris
print(dataset.groupby('class').size())

#Viasualisasi Dataset
#UNIVARIATE PLOT untuk memahami tiap atribut/variable
#Boxplot
#import matplotlib.pyplot
dataset.plot(kind='box', subplots=True, layout=(2,10), sharex=False, sharey=False)

#plt.show() #not callable
#Histogram
#Box and Whisker Plots untuk membuat histogram setiap input variable, untuk mengetahui distribusi
#histograms
dataset.hist()

#plt().show() #not callable
#MULTIVARIATE PLOT untuk membantu memahami interaksi antar variable
#Scatter Plot

from pandas.plotting import scatter_matrix
scatter_matrix(dataset)
#pada diagoalnya terlihat korelasi yag sangat tinggi dan dapat diprediksi..

#3. Preprocessing Imputasi


import numpy as np
from sklearn.impute import SimpleImputer

array = dataset.values

x = array[:,1:19] #inputnya adalah kolom ke-1, 2, 3, ... , 19
y = array[:,0] #outputnya adalah kolom ke 0
#imputasi mean
imp = SimpleImputer(missing_values=np.nan, strategy="median")
#simpan hasil imputasi ke dalam variable X
X = imp.fit_transform(x)

#4. Transformasi Data Menggunakan Standardize


from sklearn.preprocessing import StandardScaler

scaler = StandardScaler().fit(X)
rescaledX = scaler.transform(X)


arrayX = pandas.DataFrame(rescaledX)
arrayY = pandas.DataFrame(y)
processedData = pandas.concat([arrayY ,arrayX], axis = 1, ignore_index = True)

#5. Ringkasan dari dataset Setelah di Preprocess

#mengecek jumlah baris dan kolom
print(processedData.shape)

#melihat 20 baris pertama dari dataset
print(processedData.head(20))

# melihat ringkasan statistik dari setiap atribut, yakni count, unique, top dan freq
print(processedData.describe())

#melihat detail data berdasarkan variabel, misal jumlah baris
print(processedData.groupby('0').size())

#Viasualisasi Dataset
#UNIVARIATE PLOT untuk memahami tiap atribut/variable
#Boxplot
#import matplotlib.pyplot
processedData.plot(kind='box', subplots=True, layout=(2,10), sharex=False, sharey=False)

#plt.show() #not callable
#Histogram
#Box and Whisker Plots untuk membuat histogram setiap input variable, untuk mengetahui distribusi
#histograms
processedData.hist()

#plt().show() #not callable
#MULTIVARIATE PLOT untuk membantu memahami interaksi antar variable
#Scatter Plot

from pandas.plotting import scatter_matrix
scatter_matrix(processedData)
#pada diagoalnya terlihat korelasi yag sangat tinggi dan dapat diprediksi..