Advertisement
Not a member of Pastebin yet?
Sign Up,
it unlocks many cool features!
- Wzorki:
- dokładność = TP+TN / TP+TN+FP+FN'
- czułość = TP/ TP+ FN'
- specyficzność = TN / TN+FP
- entropia = - (1/2 *log2(1/2) + 1/2 *log2(1/2)) - przykładowo
- <img src ='https://wikimedia.org/api/rest_v1/media/math/render/svg/7debf920f90b5176505d60e6923b3539668a1718'>
- normalizacja = (x-min/ max-min) - tyle starcza jak przedział 0-1, (x-min/max-min)*(newmax - newmin) +newmin
- odległość = sqrt((xa - xb)^2 + (ya - yb)^2 + (za - zb)^2)
- 1.Proszę wskazać jakie parametry z wymienionych poniżej należy podać dla algorytmu grupowania k-średnich:
- o parametr definiujący maksymalną liczbę iteracji wykonania algorytmu
- o parametr definiujący liczbę grup
- 2.Proszę wskazać poprawne zdania dotyczące sieci społecznych:
- o rozkład stopni węzłów sieci społecznej jest rozkładem potęgowym
- o w sieciach społecznych występuje zjawisko małego świata (ang. small world phenomenon)
- 3.Liczbę sąsiadów węzła w sieci społecznej (węzłów, z którymi dany węzeł jest powiązany) określa:
- o centralność degree
- 4.Dla poniższej tablicy decyzyjnej zdefiniowano regułę decyzyjną IF aura=deszczowa and temperatura=umiarkowana THEN c=1
- o reguła wspiera 2 obiekty
- o reguła rozpoznaje 3 obiekty
- 5.Poniżej przedstawiono dwuwymiarowy zbiór danych podzielony na grupy (każda grupa wyróżniona jest innym znakiem graficznym)
- o DBSCAN
- 6.Przyjmując następujące oznaczenia: TP - wyniki prawdziwie pozytywne (true positive), TN - wyniki prawdziwie negatywne (true negative), FP - wyniki fałszywie pozytywne (false positive), FN - wyniki fałszywie negatywne (false negative)
- x dokładność klasyfikacji obliczamy za pomocą wzoru (TP)/(TP+FP)
- o dokładność klasyfikacji obliczamy za pomocą wzoru: (TP+TN)/(TP+TN+FP+FN)
- o czułość obliczamy za pomocą wzoru: (TP)/(TP+FN)
- x czułość obliczamy za pomocą wzoru: (FP)/(FP+TP)
- 7.Czyszczenie danych to ogólna nazwa na jeden z etapów przetwarzania wstępnego. Które z poniższych metod można wykorzystać na tym etapie?
- o analiza brakujących wartości
- o kubełkowanie
- 8.Wybierz poprawne pary - algorytm indukcji drzewa decyzyjnego - metoda wyboru najlepszego atrybutu
- o ID3 - information gain
- o C4.5 - gain ratio
- x ID3 - gain ratio
- x C4.5 - gini index
- 9.Dany jest zbiór atrybutów (a1, a2, a3) oraz zbiory wartości tych atrybutów:
- a1 = (czarny, niebieski, brązowy, zielony),
- a2 = (niski, średni, wysoki)
- a3 = (156, 160, 190, 120)
- o atrybut a1 jest atrybutem nominalnym
- o atrybut a2 jest atrybutem porządkowym
- o atrybut a3 jest atrybutem ilościowym
- 10. Proszę wskazać jakie parametry z wymienionych poniżej należy podać dla algorytmu grupowania DBSCAN:
- o Parametr definiujący promień analizowanego sąsiedztwa każdego obiektu danych
- o parametr definiujący liczbę sąsiadów stanowiących o gęstości analizowanego sąsiedztwa
- 11. Dana jest tablica decyzyjna zawierająca 40 obiektów, w której wyróżniono dwie klasy decyzyjne. Liczność pierwszej z nich wynosi 20 obiektów, a liczność drugiej z nich wynosi 20 obiektów. Ile wynosi entropia całego zbioru ?
- o 1
- 12.Która z poniższych metod wizualizacji pozwala na wyróżnienie społeczności w sieci społecznej ?
- o spring-embedder
- o multidimensional scaling
- 13. Zdania prawdziwe odnośnie dwumodalnej sieci:
- o ma dwa rodzaje węzłów
- o węzły jednego rodzaju nie są ze sobą połączone
- o posiada tylko połączenia pomiędzy węzłami różnego rodzaju
- 14. Dwie tablice decyzyjne T1 z decyzjami 40%/60% i T2 z decyzjami 10%/90%
- o entropia T1 jest większa od T2
- o entropia T1 jest zbliżona do 1
- x entropia T1 jest zbliżona do 0
- 15. Co to jest degree ?
- o Określa liczbę powiązań danego węzła
- o Miara lokalna węzła
- 16. Zdania dotyczące strumieniowej analizy danych
- o ograniczony czas na analizę
- o ograniczona pojemność bufora danych
- o dane nadchodzą szybko
- o danych się nie przechowuje, tylko ich agregacje
- o coś z ograniczonym dostępem, brak możliwości przeglądania starych danych
- 17.Metoda wizualizacji sieci społecznych o nazwie Fruchterman-Reingold:
- o ułatwia analizę społeczności
- o wykorzystuje fizyczny model oddziaływań (sprężyny-powiązania i ładunki-węzły) w celu przedstawienia sieci
- o układa węzły hierarchicznie zgodnie z wartościami wybranej centralności
- x układa węzły na okręgu, wewnątrz którego narysowane są powiązania
- 18.Dane są wektory:
- A = [1 3 4 5 7]
- B = [0.2 0.1 0.05 0.02 0.01]
- C = [10 5 18 12 20]
- o Wektory A i B są skorelowane ujemnie
- x Współczynnik korelacji pozwala na obliczenie odległości pomiędzy dwoma wektorami
- x Wektory A i C są ze sobą skorelowane ujemnie
- x Wektory A i B są ze sobą skorelowane dodatnio
- 19. Wartość miary entropii dla rzutu monetą wynosi:
- x 0.5
- o 1
- x 0
- x -0.5
- 20. Algorytm identyfikacji społeczności w sieci społecznej zaproponowany przez Givan-Newman ( algorytm hierarchiczny dzielący)
- o ma złożoność zbyt dużą do analizy dużych sieci (np. 1000000 węzłów)
- o bazuje na centralności betweeness dla krawędzi
- x bazuje na centralności betweeness dla węzłów
- o w kolejnych iteracjach dzieli sieć na społeczności usuwając kolejne krawędzie
- 21. Pytanie o betweenness:
- o określa liczbę najkrótszych ścieżek przechodzących przez dany węzeł
- o jest wysoka dla węzła łączącego dwie społeczności
- 22. Dobór preferencyjny w sieciach społecznych polega na tym, że:
- o bardziej prawdopodobne jest połączenie się nowego węzła w sieci z węzłami mającymi względnie dużo powiązań
- x bardziej prawdopodobne jest połączenie się nowego węzłą w sieci z węzłami mającmi względnie mało powiązań
- x prawdopodobieństwa połączenia się nowego węzła z każdym z pozostałych węzłów jest jednakowe
- 23. Zaznacz poprawne odpowiedzi dotyczące różnych metod testowania jakości klasyfikatorów
- x W przypadku jeśli zbiór danych jest nieliczny, dobrą taktyką jest wykorzystanie całego zbioru danych zarówno na etapie uczenia klasyfikatora jak i testowania jego jakości gdyż dzięki temu klasyfikator dostanie więcej informacji o obiektach na etapie uczenia
- x 10-krotna stratyfikowana walidacja krzyżowa to metoda oceny jakości klasyfikatora, która dzieli zbiór danych w taki sposób, że losowo 70% obiektów stanowi zbiór treningowy a 30% zbiór testowy, Procedura ta powtarzana jest 10 razy, a jakość klasyfikatora jest średnią z jakości klasyfikacji 10-ciu powtórzeń
- o W przypadku jeśli zbiór danych jest nieliczny, lepiej będzie zastosować metodą leave-one-out niż 10-krotną walidację krzyżową
- 24. Dany jest system informacyjny SU=(U,A). Zaznacz poprawne odpowiedzi:
- x przyjmując jako miarę odległości euklidesową, para obiektów x i y jest do siebie bardziej podobna niż para obiektów y i z
- x odległość euklidesowa pomiędzy parą obiektów x i y wynosi 25
- x odległość euklidesowa pomiędzy parą obiektów x i y wynosi 10
- o odległość euklidesowa pomiędzy parą obiektów x i y wynosi 5
- |a|b
- x 5 6
- y 2 2
- z 1 0
- 25. Przetwarzanie strumieni danych charakteryzuje:
- o wyznaczanie podziału danych na treningowe i testowe
- o szybki napływ danych
- o przechowywanie jedynie zagregowanych charakterystyk zamiast danych
- o stosowanie liniowych lub sub-liniowych metod analizy
- 26. Centralność closeness węzła sieci społecznej:
- x jest największa dla węzłów mających jedno powiązanie
- ? zależy od liczby najkrótszych ścieżek w sieci wychodzących z danego węzła
- o zależy od długości najkrótszych ścieżek w sieci wychodzących z danego węzła
- o zależy od liczby powiązań węzła
- 27. podejście typu prequential do oceny jakości modelu wyznaczonego dla danych strumieniowych polega m.in. na:
- x testowaniu modelu na specjalnie wydzielonych danych testowych
- o testowaniu modelu na nadchodzących danych, które w kolejnym kroku posłużą do uczenia tego modelu
- o wyznaczaniu błędu modelu jako skumulowanej sumy wartości funkcji straty, której wartość wyznaczana jest dla kolejnych przykładów
- 28. Dany jest zbiór wartości pewnego atrybutu a. Wartość minimalna w tym zbiorze wynosi 300, a maksymalna 2700. Jaki będzie wynik normalizacji min-max do zakresu 0-1 dla konkretnej wartości tego atrybutu równej 900.
- x 0.75
- o 0.25
- x 0.6
- x 0.5
- 29. Pytanie o leave-one-out
- o jest n-1 zbiorów treningowych, 1 testowy
- o algorytm wywoływany jest n razy
- 30.Policzyć specyficzność i dokładność, TP=30, TN=20, FP=40, FN=10
- o specyficzność = 0.33
- o dokładność = 0.5
- 31. Społeczność utworzona przez ludzi
- o zwykle węzeł ma niewiele powiązań
- o nieliczne węzły mają bardzo wiele powiązań
- o Bardzo wiele powiązań pomiędzy więzłami
- 32. Zaznacz poprawne odpowiedzi dotyczące algorytmu indukcji reguł CN2
- x Algorytm działanie rozpoczyna od wygenerowania najbardziej szczegółowej reguły która jest potem uogólniona
- o Algorytm działanie rozpoczyna od wygenerowania najbardziej ogólnej reguły która jest potem uszczegółowiona
- o Jest to algorytm pokryciowy
- x Algorytm generuje tylko takie reguły, które są dokładne
- 33. Współczynnik grupowania (ang. clustering coefficient) węzłów sieci społecznej:
- x charakteryzuje poprawność (przyporządkowanie węzła do społeczności
- o określa jak silnie sąsiedzi danego węzła są ze sobą powiązani
- x zależy od liczby najkrótszych ścieżek wychodzących z danego węzła
- x zależy od centralności eigenvector danego węzła
- 34. Co robi metoda adaptacyjna ?
- o Wykrywa concept concept drift
- o Reaguje na concept drift (pozwala zmieniać model)
- 35. Na czym polega wykres kołowy? (pewnie chodzi o wizualizację kołową węzłów sieci społecznej
- o Coś tam po okręgu
- x Coś tam radialnie
- GRUPA A i B 2014
- ---------------------------------
- 1. Proszę wskazać jakie parametry z wymienionych poniżej należy podać dla algorytmu grupowania k-średnich
- x parametr definiujący promień analizowanego sąsiedztwa każdego obiektu danych
- o parametr definiujący liczbę iteracji
- o parametr definiujący liczbę grup
- x parametr definiujący liczbę sąsiadów stanowiących o gęstości analizowanego sąsiedztwa
- 2. Proszę wskazać co jest efektem działania algorytmu grupowania hierarchicznego scalającego
- o dendrogram
- x rozmyta macierz podziału
- x ostra macierz podziału
- 3. Liczbę sąsiadów węzła w sieci społecznej (węzłów, z którymi dany węzeł jest powiązany) określa:
- x centralność closeness
- o stopień węzła
- x współczynnik grupowania
- 4. Społeczność w sieci społecznej to:
- x grupa węzłów o podobnym stopniu
- x grupa węzłów o podobnej wartości współczynnika grupowania
- o grupa węzłów o większej liczbie powiązań między sobą niż z resztą sieci
- 5. Regresja liniowa y=ax+b to przykład regresji:
- x półparametrycznej
- x nieparametrycznej
- o parametrycznej
- 6. Warunkiem koniecznym funkcji jądra jest:
- o RK(x)dx=1
- o SK(x)=K(-x)
- x K(0)=1
- 7. Zbiór danych składa się z 4 obiektów o1,o2,o3,o4 opisanych atrybutem a i przypisanych do jednej z dwóch klas decyzyjnych (atrybut class). Entropia warunkowa (ważona) tego zbioru przykładów ze względu na podział zakresu wartości atrybutu a za pomocą wartości progowej równej 2.5:
- x przyjmuje wartość ujemną
- x przyjmuje wartość równą 0,5
- o jest liczbą z przedziału obustronnie domkniętego [0;1]
- o jest taka sama jak dla wartości progowej równej 2,75
- a| class
- o1 4 +
- o2 3 -
- o3 2 +
- o4 1 -
- 8. Metoda dyskretyzacji według równej częstości:
- x wymaga znajomości klas decyzyjnych przykładów
- x zamienia wartości atrybutu numerycznego na wartości binarne
- o wymaga podania parametru określającego liczbę wynikowych przedziałów
- o jest bardziej oporna na wartości odstające niż metoda dyskretyzacji według równej szerokości przedziałów
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement