Untitled

library(dplyr)
library(caret)
library(randomForest)
########################################
# Zad 1
# Zapisz do folderu plik dataLeukemia.RData, zapoznaj siÄ™ z danymi genetycznymi pacjentĂłw chorych
# na biaĹ‚aczkÄ™, ustal nastÄ™pujÄ…ce dane:
# a) ile jest typĂłw biaĹ‚aczki (klasy)
# b) jak liczne sÄ… klasy, zwrĂłÄ‡ uwagÄ™ czy klasy sÄ… rĂłwnoliczne?
# c) jak duĹĽy jest zbiĂłr zmiennych genetycznych/predyktorĂłw w stosunku do liczby prĂłb (obserwacji)?
#setwd("E:/DYDAKTYKA/Bioinformatyka/Laboratorium2017_18")
load('dataLeukemia.RData')
 View(data[1:10,1:10])
 #dim(train0)


 names(data[,1:3])
 data=data[,-c(1,3)]

 table(data$Leukemia.class)
 unique(data$Leukemia.class)

 data0=data[data$Leukemia.class == 'c-ALL/Pre-B-ALL without t(9;22)' | data$Leukemia.class == 'MDS',]
 save(data0,file='data0.RData')
 View(data0[1:50, 1:10])
 data0$Leukemia.class = as.numeric(data0$Leukemia.class)
 View(data0[1:50, 1:10])


 ##### PERMUTACJA
n11 = nrow(data0[data0$Leukemia.class == 11,])
n15 = nrow(data0[data0$Leukemia.class == 15,])

index11 = seq(from =1, to = n11, by = 1)
index15 = seq(from =1, to = n15, by = 1)

index11_perm = sample.int(index11, size = length(index11), replace = FALSE)
index15_perm = sample.int(index15, size = length(index15), replace = FALSE)
#####


########## 3-cross
index_test = index_train = list()
index_all =1:391
index_test[[1]] = c(1:66,199:263)
index_test[[2]] = c(67:132, 264:328)
index_test[[3]] = c(133:198,329:391)

index_train[[1]] = index_all[-c(1:66,199:263)]
index_train[[2]] = index_all[-c(67:132, 264:328)]
index_train[[3]] = index_all[-c(133:198,329:391)]

#############

data_0 = data0[index_train[[1]],-1] #markery
class = data0[index_train[[1]],1]
data_0_test = data0[index_test[[1]],-1]
class_test = data0[index_test[[1]],1]


list_p_value = list()
for(i in 1:ncol(data_0)){
  p_val = t.test(x = data_0[,i], y = class,alternative = c("two.sided"),var.equal = TRUE,conf.level = 0.95)
  list_p_value[[i]] = p_val$p.value
}

gene_p_val = cbind(names(data_0), as.numeric(unlist(list_p_value)))
sort_gene_p_val = gene_p_val[order(as.numeric(gene_p_val[,2])),]
sort_gene_p_val_adjust = p.adjust(sort_gene_p_val[,2], method = 'BH')


gene_p_val_adjust = cbind(sort_gene_p_val[,1], sort_gene_p_val_adjust)
p_val_adjust05 = gene_p_val_adjust[gene_p_val_adjust[,2] < 0.05, ]
dim(p_val_adjust05)


result_model = randomForest(x = data_0[,p_val_adjust05[,1]], y=as.factor(class),
                            xtest=data_0_test[,p_val_adjust05[,1]], ytest=as.factor(class_test), ntree=500,
             importance=TRUE)


# Zad 2
# Z powyĹĽszego zbioru danych wybierz tylko 2 typy leukemii, najbardziej liczne, w ktĂłrych liczba pacjentĂłw
# jest porĂłwnywalna. W przypadku maĹ‚ej liczby obserwacji budowÄ™ modelu i jego walidacjÄ™ wykonujemy w crossvalidacji tj. dzielimy
# dzielÄ…c zbiĂłr na N czÄ™Ĺ›ci i budujÄ…c model k- krotnie. Optymalnie aby wykonywana byĹ‚a peĹ‚na krossvalidacja
# tzn. obserwacje N zbiorĂłw testowych sÄ… rĂłĹĽne, niepowtarzajÄ… siÄ™.
#
# Napisz funkcjÄ™, do wykonania peĹ‚nej crossvalidacji, ktĂłra bÄ™dzie dzieliĹ‚a zbiĂłr danych (2 klasy)
# na N porĂłwnywalnych czÄ™Ĺ›ci (max 10) i zapisywaĹ‚a do listy dwa zbiory: treningowy (liczba obserwacji (N-1)/N)
# i testowy (liczba obserwacji 1/N). Przetestuj funkcjÄ™ dla krossvalidacji N = 3
#  dla wybranych danych ze zbioru leukemii tj. wybierz dane 2 typow leukemii (nazwijmy ten zbiĂłr A),
# w ktĂłrych liczba pacjentĂłw jest porĂłwnywalna. Zadanie wykonaj pracujÄ…c wyĹ‚Ä…cznie na indeksach.

# Zad 3
# W przypadku duĹĽej dysproporcji zmiennych liczba deskryptorĂłw >> liczba obserwacji naleĹĽy przed budowÄ… modelu
# uczenia maszynowego wykonaÄ‡ redukcjÄ™ zmiennych (predyktorĂłw), w tym celu wykorzystamy znanÄ… metodÄ™ statystycznÄ…
# tj. t-test Studenta (w R funkcja t.test ), dla uproszczenia przyjmijmy ĹĽe wszystkie predyktory majÄ… rozkĹ‚ad
# normalny i wariancje w obu grupach sÄ… rĂłwne.
# W przypadku wykonywania testĂłw wielokrotnych (N porĂłwnaĹ„ dla tego samego deskryptora) musisz wykonaÄ‡
# poprawkÄ™, dla danych genetycznych stosuje siÄ™ zwykle poprawkÄ™ Benjamini-Hochberga (w R funkcja p.adjust)
# Napisz funkcjÄ™, ktĂłra wykona dla okreĹ›lonego zbioru treningowego filtracjÄ™ zmiennych/predyktorĂłw.
# PamiÄ™taj, ĹĽe wszystkie istotne statystycznie zmienne to takie ktĂłre majÄ… p-value < 0.05, wiÄ™c wykonaj odpowiednie
# sortowanie

# Zad 4
# KorzystajÄ…c z algorytmu LasĂłw Losowych wykonaj klasyfikacjÄ™ na zbiorze A w 3-krotnej crosvalidacji w 5 iteracjach
# na 20-tu najistotniejszych zmiennych genetycznych (100 top zmiennych w rakningu po p-value z t-testu).