Advertisement
Guest User

asd

a guest
Feb 24th, 2020
102
0
Never
Not a member of Pastebin yet? Sign Up, it unlocks many cool features!
text 3.35 KB | None | 0 0
  1. # -*- coding: utf-8 -*-
  2. """
  3. Created on Mon Feb 24 19:53:22 2020
  4.  
  5. @author: Ridwan
  6. """
  7.  
  8. #1. Load dataset
  9.  
  10. #impor library panda untuk membaca data
  11. import pandas
  12.  
  13. # membaca file dan direktori tempat iris.data.csv disimpan
  14. direktori = "hepatitis.data.csv"
  15.  
  16. # memberi nama variabel
  17. names = ['class','age', 'sex','steroid','antiviral','fatigue', 'malaise','anorexia','liver-big','liver-firm', 'spleen-palpable','spiders','ascites','varices', 'bilirubin','alk-phosphate','sgot','albumin', 'protime','histology']
  18.  
  19. # membaca data dengan library panda
  20. dataset = pandas.read_csv(direktori, names=names, na_values=["?"])
  21.  
  22.  
  23. #2. Ringkasan dari dataset Sebelum di Preprocess
  24.  
  25. #mengecek jumlah baris dan kolom
  26. print(dataset.shape)
  27.  
  28. #melihat 20 baris pertama dari dataset
  29. print(dataset.head(20))
  30.  
  31. # melihat ringkasan statistik dari setiap atribut, yakni count, unique, top dan freq
  32. print(dataset.describe())
  33.  
  34. #melihat detail data berdasarkan variabel, misal jumlah baris
  35. print(dataset.groupby('class').size())
  36.  
  37. #Viasualisasi Dataset
  38. #UNIVARIATE PLOT untuk memahami tiap atribut/variable
  39. #Boxplot
  40. #import matplotlib.pyplot
  41. dataset.plot(kind='box', subplots=True, layout=(2,10), sharex=False, sharey=False)
  42.  
  43. #plt.show() #not callable
  44. #Histogram
  45. #Box and Whisker Plots untuk membuat histogram setiap input variable, untuk mengetahui distribusi
  46. #histograms
  47. dataset.hist()
  48.  
  49. #plt().show() #not callable
  50. #MULTIVARIATE PLOT untuk membantu memahami interaksi antar variable
  51. #Scatter Plot
  52.  
  53. from pandas.plotting import scatter_matrix
  54. scatter_matrix(dataset)
  55. #pada diagoalnya terlihat korelasi yag sangat tinggi dan dapat diprediksi..
  56.  
  57. #3. Preprocessing Imputasi
  58.  
  59.  
  60. import numpy as np
  61. from sklearn.impute import SimpleImputer
  62.  
  63. array = dataset.values
  64.  
  65. x = array[:,1:19] #inputnya adalah kolom ke-1, 2, 3, ... , 19
  66. y = array[:,0] #outputnya adalah kolom ke 0
  67. #imputasi mean
  68. imp = SimpleImputer(missing_values=np.nan, strategy="median")
  69. #simpan hasil imputasi ke dalam variable X
  70. X = imp.fit_transform(x)
  71.  
  72. #4. Transformasi Data Menggunakan Standardize
  73.  
  74.  
  75. from sklearn.preprocessing import StandardScaler
  76.  
  77. scaler = StandardScaler().fit(X)
  78. rescaledX = scaler.transform(X)
  79.  
  80.  
  81. arrayX = pandas.DataFrame(rescaledX)
  82. arrayY = pandas.DataFrame(y)
  83. processedData = pandas.concat([arrayY ,arrayX], axis = 1, ignore_index = True)
  84.  
  85. #5. Ringkasan dari dataset Setelah di Preprocess
  86.  
  87. #mengecek jumlah baris dan kolom
  88. print(processedData.shape)
  89.  
  90. #melihat 20 baris pertama dari dataset
  91. print(processedData.head(20))
  92.  
  93. # melihat ringkasan statistik dari setiap atribut, yakni count, unique, top dan freq
  94. print(processedData.describe())
  95.  
  96. #melihat detail data berdasarkan variabel, misal jumlah baris
  97. print(processedData.groupby('0').size())
  98.  
  99. #Viasualisasi Dataset
  100. #UNIVARIATE PLOT untuk memahami tiap atribut/variable
  101. #Boxplot
  102. #import matplotlib.pyplot
  103. processedData.plot(kind='box', subplots=True, layout=(2,10), sharex=False, sharey=False)
  104.  
  105. #plt.show() #not callable
  106. #Histogram
  107. #Box and Whisker Plots untuk membuat histogram setiap input variable, untuk mengetahui distribusi
  108. #histograms
  109. processedData.hist()
  110.  
  111. #plt().show() #not callable
  112. #MULTIVARIATE PLOT untuk membantu memahami interaksi antar variable
  113. #Scatter Plot
  114.  
  115. from pandas.plotting import scatter_matrix
  116. scatter_matrix(processedData)
  117. #pada diagoalnya terlihat korelasi yag sangat tinggi dan dapat diprediksi..
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement