dszt

Wzorki:
dokładność = TP+TN / TP+TN+FP+FN'
czułość = TP/ TP+ FN'
specyficzność = TN / TN+FP
entropia =  - (1/2 *log2(1/2) + 1/2 *log2(1/2)) - przykładowo
<img src ='https://wikimedia.org/api/rest_v1/media/math/render/svg/7debf920f90b5176505d60e6923b3539668a1718'>
normalizacja = (x-min/ max-min) - tyle starcza jak przedział 0-1, (x-min/max-min)*(newmax - newmin) +newmin
odległość = sqrt((xa - xb)^2 + (ya - yb)^2 + (za - zb)^2)


1.Proszę wskazać jakie parametry z wymienionych poniżej należy podać dla algorytmu grupowania k-średnich:
o parametr definiujący maksymalną liczbę iteracji wykonania algorytmu
o parametr definiujący liczbę grup

2.Proszę wskazać poprawne zdania dotyczące sieci społecznych:
o rozkład stopni węzłów sieci społecznej jest rozkładem potęgowym
o w sieciach społecznych występuje zjawisko małego świata (ang. small world phenomenon)

3.Liczbę sąsiadów węzła w sieci społecznej (węzłów, z którymi dany węzeł jest powiązany) określa:
o centralność degree

4.Dla poniższej tablicy decyzyjnej zdefiniowano regułę decyzyjną IF aura=deszczowa and temperatura=umiarkowana THEN c=1
o reguła wspiera 2 obiekty
o reguła rozpoznaje 3 obiekty

5.Poniżej przedstawiono dwuwymiarowy zbiór danych podzielony na grupy (każda grupa wyróżniona jest innym znakiem graficznym)
o DBSCAN

6.Przyjmując następujące oznaczenia: TP - wyniki prawdziwie pozytywne (true positive), TN - wyniki prawdziwie negatywne (true negative), FP - wyniki fałszywie pozytywne (false positive), FN - wyniki fałszywie negatywne (false negative)
x dokładność klasyfikacji obliczamy za pomocą wzoru (TP)/(TP+FP)
o dokładność klasyfikacji obliczamy za pomocą wzoru: (TP+TN)/(TP+TN+FP+FN)
o czułość obliczamy za pomocą wzoru: (TP)/(TP+FN)
x czułość obliczamy za pomocą wzoru: (FP)/(FP+TP)


7.Czyszczenie danych to ogólna nazwa na jeden z etapów przetwarzania wstępnego. Które z poniższych metod można wykorzystać na tym etapie?
o analiza brakujących wartości
o kubełkowanie

8.Wybierz poprawne pary - algorytm indukcji drzewa decyzyjnego - metoda wyboru najlepszego atrybutu
o ID3 - information gain
o C4.5 - gain ratio
x ID3 - gain ratio
x C4.5 - gini index

9.Dany jest zbiór atrybutów (a1, a2, a3) oraz zbiory wartości tych atrybutów:
a1 = (czarny, niebieski, brązowy, zielony),
a2 = (niski, średni, wysoki)
a3 = (156, 160, 190, 120)
o atrybut a1 jest atrybutem nominalnym
o atrybut a2 jest atrybutem porządkowym
o atrybut a3 jest atrybutem ilościowym

10. Proszę wskazać jakie parametry z wymienionych poniżej należy podać dla algorytmu grupowania DBSCAN:
o Parametr definiujący promień analizowanego sąsiedztwa każdego obiektu danych
o parametr definiujący liczbę sąsiadów stanowiących o gęstości analizowanego sąsiedztwa

11. Dana jest tablica decyzyjna zawierająca 40 obiektów, w której wyróżniono dwie klasy decyzyjne. Liczność pierwszej z nich wynosi 20 obiektów, a liczność drugiej z nich wynosi 20 obiektów. Ile wynosi entropia całego zbioru ?
o 1

12.Która z poniższych metod wizualizacji pozwala na wyróżnienie społeczności w sieci społecznej ?
o spring-embedder
o multidimensional scaling

13. Zdania prawdziwe odnośnie dwumodalnej sieci:
o ma dwa rodzaje węzłów
o węzły jednego rodzaju nie są ze sobą połączone
o posiada tylko połączenia pomiędzy węzłami różnego rodzaju

14. Dwie tablice decyzyjne T1 z decyzjami 40%/60% i T2 z decyzjami 10%/90%
o entropia T1 jest większa od T2
o entropia T1 jest zbliżona do 1
x entropia T1 jest zbliżona do 0

15. Co to jest degree ?
o Określa liczbę powiązań danego węzła
o Miara lokalna węzła

16. Zdania dotyczące strumieniowej analizy danych
o ograniczony czas na analizę
o ograniczona pojemność bufora danych
o dane nadchodzą szybko
o danych się nie przechowuje, tylko ich agregacje
o coś z ograniczonym dostępem, brak możliwości przeglądania starych danych


17.Metoda wizualizacji sieci społecznych o nazwie Fruchterman-Reingold:
o ułatwia analizę społeczności
o wykorzystuje fizyczny model oddziaływań (sprężyny-powiązania i ładunki-węzły) w celu przedstawienia sieci
o układa węzły hierarchicznie zgodnie z wartościami wybranej centralności
x układa węzły na okręgu, wewnątrz którego narysowane są powiązania

18.Dane są wektory:
A = [1 3 4 5 7]
B = [0.2 0.1 0.05 0.02 0.01]
C = [10 5 18 12 20]
o Wektory A i B są skorelowane ujemnie
x Współczynnik korelacji pozwala na obliczenie odległości pomiędzy dwoma wektorami
x Wektory A i C są ze sobą skorelowane ujemnie
x Wektory A i B są ze sobą skorelowane dodatnio

19. Wartość miary entropii dla rzutu monetą wynosi:
x 0.5
o 1
x 0
x -0.5

20. Algorytm identyfikacji społeczności w sieci społecznej zaproponowany przez Givan-Newman ( algorytm hierarchiczny dzielący)
o ma złożoność zbyt dużą do analizy dużych sieci (np. 1000000 węzłów)
o bazuje na centralności betweeness dla krawędzi
x bazuje na centralności betweeness dla węzłów
o w kolejnych iteracjach dzieli sieć na społeczności usuwając kolejne krawędzie

21. Pytanie o betweenness:
o określa liczbę najkrótszych ścieżek przechodzących przez dany węzeł
o jest wysoka dla węzła łączącego dwie społeczności

22. Dobór preferencyjny w sieciach społecznych polega na tym, że:
o bardziej prawdopodobne jest połączenie się nowego węzła w sieci z węzłami mającymi względnie dużo powiązań
x bardziej prawdopodobne jest połączenie się nowego węzłą w sieci z węzłami mającmi względnie mało powiązań
x prawdopodobieństwa połączenia się nowego węzła z każdym z pozostałych węzłów jest jednakowe

23. Zaznacz poprawne odpowiedzi dotyczące różnych metod testowania jakości klasyfikatorów
x W przypadku jeśli zbiór danych jest nieliczny, dobrą taktyką jest wykorzystanie całego zbioru danych zarówno na etapie uczenia 	          klasyfikatora jak i testowania jego jakości gdyż dzięki temu klasyfikator dostanie więcej informacji o obiektach na etapie uczenia
x 10-krotna stratyfikowana walidacja krzyżowa to metoda oceny jakości klasyfikatora, która dzieli zbiór danych w taki sposób, że losowo 70% obiektów stanowi zbiór treningowy a 30% zbiór testowy, Procedura ta powtarzana jest 10 razy, a jakość klasyfikatora jest średnią z jakości klasyfikacji 10-ciu powtórzeń
o W przypadku jeśli zbiór danych jest nieliczny, lepiej będzie zastosować metodą leave-one-out niż 10-krotną walidację krzyżową

24. Dany jest system informacyjny SU=(U,A). Zaznacz poprawne odpowiedzi:
x przyjmując jako miarę odległości euklidesową, para obiektów x i y jest do siebie bardziej podobna niż para obiektów y i z
x odległość euklidesowa pomiędzy parą obiektów x i y wynosi 25
x odległość euklidesowa pomiędzy parą obiektów x i y wynosi 10
o odległość euklidesowa pomiędzy parą obiektów x i y wynosi 5
 |a|b
x 5 6
y 2 2
z 1 0

25. Przetwarzanie strumieni danych charakteryzuje:
o wyznaczanie podziału danych na treningowe i testowe
o szybki napływ danych
o przechowywanie jedynie zagregowanych charakterystyk zamiast danych
o stosowanie liniowych lub sub-liniowych metod analizy

26. Centralność closeness węzła sieci społecznej:
x jest największa dla węzłów mających jedno powiązanie
? zależy od liczby najkrótszych ścieżek w sieci wychodzących z danego węzła
o zależy od długości najkrótszych ścieżek w sieci wychodzących z danego węzła
o zależy od liczby powiązań węzła

27. podejście typu prequential do oceny jakości modelu wyznaczonego dla danych strumieniowych polega m.in. na:
x testowaniu modelu na specjalnie wydzielonych danych testowych
o testowaniu modelu na nadchodzących danych, które w kolejnym kroku posłużą do uczenia tego modelu
o wyznaczaniu błędu modelu jako skumulowanej sumy wartości funkcji straty, której wartość wyznaczana jest dla kolejnych przykładów

28. Dany jest zbiór wartości pewnego atrybutu a. Wartość minimalna w tym zbiorze wynosi 300, a maksymalna 2700. Jaki będzie wynik normalizacji min-max do zakresu 0-1 dla konkretnej wartości tego atrybutu równej 900.
x 0.75
o 0.25
x 0.6
x 0.5

29. Pytanie o leave-one-out
o jest n-1 zbiorów treningowych, 1 testowy
o algorytm wywoływany jest n razy

30.Policzyć specyficzność i dokładność, TP=30, TN=20, FP=40, FN=10
o specyficzność = 0.33
o dokładność = 0.5

31. Społeczność utworzona przez ludzi
o zwykle węzeł ma niewiele powiązań
o nieliczne węzły mają bardzo wiele powiązań
o Bardzo wiele powiązań pomiędzy więzłami

32. Zaznacz poprawne odpowiedzi dotyczące algorytmu indukcji reguł CN2
x Algorytm działanie rozpoczyna od wygenerowania najbardziej szczegółowej reguły która jest potem uogólniona
o Algorytm działanie rozpoczyna od wygenerowania najbardziej ogólnej reguły która jest potem uszczegółowiona
o Jest to algorytm pokryciowy
x Algorytm generuje tylko takie reguły, które są dokładne

33. Współczynnik grupowania (ang. clustering coefficient) węzłów sieci społecznej:
x charakteryzuje poprawność (przyporządkowanie węzła do społeczności
o określa jak silnie sąsiedzi danego węzła są ze sobą powiązani
x zależy od liczby najkrótszych ścieżek wychodzących z danego węzła
x zależy od centralności eigenvector danego węzła

34. Co robi metoda adaptacyjna ?
o Wykrywa concept concept drift
o Reaguje na concept drift (pozwala zmieniać model)

35. Na czym polega wykres kołowy? (pewnie chodzi o wizualizację kołową węzłów sieci społecznej
o Coś tam po okręgu
x Coś tam radialnie

GRUPA A i B 2014
---------------------------------
1. Proszę wskazać jakie parametry z wymienionych poniżej należy podać dla algorytmu grupowania k-średnich
x parametr definiujący promień analizowanego sąsiedztwa każdego obiektu danych
o parametr definiujący liczbę iteracji
o parametr definiujący liczbę grup
x parametr definiujący liczbę sąsiadów stanowiących o gęstości analizowanego sąsiedztwa

2. Proszę wskazać co jest efektem działania algorytmu grupowania hierarchicznego scalającego
o dendrogram
x rozmyta macierz podziału
x ostra macierz podziału

3. Liczbę sąsiadów węzła w sieci społecznej (węzłów, z którymi dany węzeł jest powiązany) określa:
x centralność closeness
o stopień węzła
x współczynnik grupowania

4. Społeczność w sieci społecznej to:
x grupa węzłów o podobnym stopniu
x grupa węzłów o podobnej wartości współczynnika grupowania
o grupa węzłów o większej liczbie powiązań między sobą niż z resztą sieci

5. Regresja liniowa y=ax+b to przykład regresji:
x półparametrycznej
x nieparametrycznej
o parametrycznej

6. Warunkiem koniecznym funkcji jądra jest:
o RK(x)dx=1
o SK(x)=K(-x)
x K(0)=1

7. Zbiór danych składa się z 4 obiektów o1,o2,o3,o4 opisanych atrybutem a i przypisanych do jednej z dwóch klas decyzyjnych (atrybut class). Entropia warunkowa (ważona) tego zbioru przykładów ze względu na podział zakresu wartości atrybutu a za pomocą wartości progowej równej 2.5:
x przyjmuje wartość ujemną
x przyjmuje wartość równą 0,5
o jest liczbą z przedziału obustronnie domkniętego [0;1]
o jest taka sama jak dla wartości progowej równej 2,75

   a| class
o1 4   +
o2 3   -
o3 2   +
o4 1   -

8. Metoda dyskretyzacji według równej częstości:
x wymaga znajomości klas decyzyjnych przykładów
x zamienia wartości atrybutu numerycznego na wartości binarne
o wymaga podania parametru określającego liczbę wynikowych przedziałów
o jest bardziej oporna na wartości odstające niż metoda dyskretyzacji według równej szerokości przedziałów