Advertisement
Guest User

bjir moment

a guest
Feb 23rd, 2020
131
0
Never
Not a member of Pastebin yet? Sign Up, it unlocks many cool features!
text 1.88 KB | None | 0 0
  1.  
  2. #1. Load dataset
  3.  
  4. #impor library panda untuk membaca data
  5. import pandas
  6.  
  7. # membaca file dan direktori tempat iris.data.csv disimpan
  8. direktori = "hepatisis.data.csv"
  9.  
  10. # memberi nama variabel
  11. names = ['class','age', 'sex','steroid','antiviral','fatigue', 'malaise','anorexia','liver-big','liver-firm', 'spleen-palpable','spiders','ascites','varices', 'bilirubin','alk-phosphate','sgot','albumin', 'protime','histology']
  12.  
  13. datamissing = pandas.read_csv(direktori, names=names, na_values=["?"])
  14. #panggil dataset
  15. array = datamissing.values
  16. # pisah input dan output
  17. x = array[:,0:19] #inputnya adalah kolom ke-0, 1, 2, 3
  18. y = array[:,0] #outputnya adalah kolom ke 4
  19. #imputasi mean
  20. imp = SimpleImputer(missing_values=np.nan, strategy="median")
  21. #simpan hasil imputasi ke dalam variable X
  22. X = imp.fit_transform(x)
  23. scaler = MinMaxScaler(feature_range=(0, 1))
  24. rescaledX = scaler.fit_transform(X)
  25.  
  26. #2. Ringkasan dari dataset
  27.  
  28. #mengecek jumlah baris dan kolom
  29. print(rescaledX.shape)
  30.  
  31. #melihat 20 baris pertama dari dataset
  32. print(rescaledX.head(20))
  33.  
  34. # melihat ringkasan statistik dari setiap atribut, yakni count, unique, top dan freq
  35. print(rescaledX.describe())
  36.  
  37. #melihat detail data berdasarkan variabel, misal jumlah baris
  38. print(rescaledX.groupby('class').size())
  39.  
  40. #Viasualisasi Dataset
  41. #UNIVARIATE PLOT untuk memahami tiap atribut/variable
  42. #Boxplot
  43. #import matplotlib.pyplot
  44. rescaledX.plot(kind='box', subplots=True, layout=(2,2), sharex=False, sharey=False)
  45.  
  46. #plt.show() #not callable
  47. #Histogram
  48. #Box and Whisker Plots untuk membuat histogram setiap input variable, untuk mengetahui distribusi
  49. #histograms
  50. rescaledX.hist()
  51.  
  52. #plt().show() #not callable
  53. #MULTIVARIATE PLOT untuk membantu memahami interaksi antar variable
  54. #Scatter Plot
  55.  
  56. from pandas.plotting import scatter_matrix
  57. scatter_matrix(rescaledX)
  58. #pada diagoalnya terlihat korelasi yag sangat tinggi dan dapat diprediksi..
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement