Untitled

Witam,
Zajrzałam do Pana danych, ma Pan do wyboru surowe (raw) i przetworzone już dane:
E-GEOD-9829.processed.1.zip
E-GEOD-9829.processed.2.zip
E-GEOD-9829.processed.3.zip
z tych 3 folderów z wszystkich plików wczytać VALUE i połączyć w jedną tabelę:
nazwy wierszy to ID próbek czyli np. GSM248830, nazwy kolumn ID_REF czyli np. SNP_A-1909444

Poniżej widać jakie mamy podtypy nowotworu wczytane z danych klinicznych które możemy przewidywać korzystając z SVM
i ile obserwacji mamy do każdego podtypu.

########################
library(data.table)
########signature database: EXP,  RNA Transcript ID vs ID patents
opis.data = read.delim2("C:/Users/aaaaaaaaaaaaaaaaaaaa/ownCloud/HepatocellularCarcinoma/data/E-GEOD-9829.sdrf.txt",
                  skip=0, sep='\t')
View(opis.data) # dim(RPM)  #  gene 21309    observation 288
table(opis.data$FactorValue..CLASS.)

       CTNNB1  inflammation not specified Polysomy chr7 Proliferation   Unannotated
           24            18           197             9            23            17

clin.data = read.delim2("C:/Users/aaaaaaaaaaaaaaaaaaaa/ownCloud/HepatocellularCarcinoma/data/GSE9829_clinical_info.txt",
                        header = TRUE, skip=1, sep='\t')
View(clin.data) # dim(RPM)  #
table(clin.data$Class) #molecular subtype (molekularne podtypy nowotworu)

CTNNB1        Inflammation  Polysomy       chr7     Proliferation        Unannotated
20                           24              18                9              23                    17
###################################################################################