Advertisement
Not a member of Pastebin yet?
Sign Up,
it unlocks many cool features!
- # -*- coding: utf-8 -*-
- """
- Created on Mon Feb 24 19:53:22 2020
- @author: Ridwan
- """
- #1. Load dataset
- #impor library panda untuk membaca data
- import pandas
- # membaca file dan direktori tempat iris.data.csv disimpan
- direktori = "hepatitis.data.csv"
- # memberi nama variabel
- names = ['class','age', 'sex','steroid','antiviral','fatigue', 'malaise','anorexia','liver-big','liver-firm', 'spleen-palpable','spiders','ascites','varices', 'bilirubin','alk-phosphate','sgot','albumin', 'protime','histology']
- # membaca data dengan library panda
- dataset = pandas.read_csv(direktori, names=names, na_values=["?"])
- #2. Ringkasan dari dataset Sebelum di Preprocess
- #mengecek jumlah baris dan kolom
- print(dataset.shape)
- #melihat 20 baris pertama dari dataset
- print(dataset.head(20))
- # melihat ringkasan statistik dari setiap atribut, yakni count, unique, top dan freq
- print(dataset.describe())
- #melihat detail data berdasarkan variabel, misal jumlah baris
- print(dataset.groupby('class').size())
- #Viasualisasi Dataset
- #UNIVARIATE PLOT untuk memahami tiap atribut/variable
- #Boxplot
- #import matplotlib.pyplot
- dataset.plot(kind='box', subplots=True, layout=(2,10), sharex=False, sharey=False)
- #plt.show() #not callable
- #Histogram
- #Box and Whisker Plots untuk membuat histogram setiap input variable, untuk mengetahui distribusi
- #histograms
- dataset.hist()
- #plt().show() #not callable
- #MULTIVARIATE PLOT untuk membantu memahami interaksi antar variable
- #Scatter Plot
- from pandas.plotting import scatter_matrix
- scatter_matrix(dataset)
- #pada diagoalnya terlihat korelasi yag sangat tinggi dan dapat diprediksi..
- #3. Preprocessing Imputasi
- import numpy as np
- from sklearn.impute import SimpleImputer
- array = dataset.values
- x = array[:,1:19] #inputnya adalah kolom ke-1, 2, 3, ... , 19
- y = array[:,0] #outputnya adalah kolom ke 0
- #imputasi mean
- imp = SimpleImputer(missing_values=np.nan, strategy="median")
- #simpan hasil imputasi ke dalam variable X
- X = imp.fit_transform(x)
- #4. Transformasi Data Menggunakan Standardize
- from sklearn.preprocessing import StandardScaler
- scaler = StandardScaler().fit(X)
- rescaledX = scaler.transform(X)
- arrayX = pandas.DataFrame(rescaledX)
- arrayY = pandas.DataFrame(y)
- processedData = pandas.concat([arrayY ,arrayX], axis = 1, ignore_index = True)
- #5. Ringkasan dari dataset Setelah di Preprocess
- #mengecek jumlah baris dan kolom
- print(processedData.shape)
- #melihat 20 baris pertama dari dataset
- print(processedData.head(20))
- # melihat ringkasan statistik dari setiap atribut, yakni count, unique, top dan freq
- print(processedData.describe())
- #melihat detail data berdasarkan variabel, misal jumlah baris
- print(processedData.groupby('0').size())
- #Viasualisasi Dataset
- #UNIVARIATE PLOT untuk memahami tiap atribut/variable
- #Boxplot
- #import matplotlib.pyplot
- processedData.plot(kind='box', subplots=True, layout=(2,10), sharex=False, sharey=False)
- #plt.show() #not callable
- #Histogram
- #Box and Whisker Plots untuk membuat histogram setiap input variable, untuk mengetahui distribusi
- #histograms
- processedData.hist()
- #plt().show() #not callable
- #MULTIVARIATE PLOT untuk membantu memahami interaksi antar variable
- #Scatter Plot
- from pandas.plotting import scatter_matrix
- scatter_matrix(processedData)
- #pada diagoalnya terlihat korelasi yag sangat tinggi dan dapat diprediksi..
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement