Advertisement
Guest User

dszt

a guest
Jan 22nd, 2020
118
0
Never
Not a member of Pastebin yet? Sign Up, it unlocks many cool features!
text 11.67 KB | None | 0 0
  1. Wzorki:
  2. dokładność = TP+TN / TP+TN+FP+FN'
  3. czułość = TP/ RP+ FN'
  4. specyficzność = TN / TN+FP
  5. entropia = - (1/2 *log2(1/2) + 1/2 *log2(1/2)) - przykładowo
  6. https://wikimedia.org/api/rest_v1/media/math/render/svg/7debf920f90b5176505d60e6923b3539668a1718'
  7. normalizacja = (x-min/ max-min) - tyle starcza jak przedział 0-1, (x-min/max-min)*(newmax - newmin) +newmin
  8.  
  9.  
  10. 1.Proszę wskazać jakie parametry z wymienionych poniżej należy podać dla algorytmu grupowania k-średnich:
  11. o parametr definiujący maksymalną liczbę iteracji wykonania algorytmu
  12. o parametr definiujący liczbę grup
  13.  
  14. 2.Proszę wskazać poprawne zdania dotyczące sieci społecznych:
  15. o rozkład stopni węzłów sieci społecznej jest rozkładem potęgowym
  16. o w sieciach społecznych występuje zjawisko małego świata (ang. small world phenomenon)
  17.  
  18. 3.Liczbę sąsiadów węzła w sieci społecznej (węzłów, z którymi dany węzeł jest powiązany) określa:
  19. o centralność degree
  20.  
  21. 4.Dla poniższej tablicy decyzyjnej zdefiniowano regułę decyzyjną IF aura=deszczowa and temperatura=umiarkowana THEN c=1
  22. o reguła wspiera 2 obiekty
  23. o reguła rozpoznaje 3 obiekty
  24.  
  25. 5.Poniżej przedstawiono dwuwymiarowy zbiór danych podzielony na grupy (każda grupa wyróżniona jest innym znakiem graficznym)
  26. o DBSCAN
  27.  
  28. 6.Przyjmując następujące oznaczenia: TP - wyniki prawdziwie pozytywne (true positive), TN - wyniki prawdziwie negatywne (true negative), FP - wyniki fałszywie pozytywne (false positive), FN - wyniki fałszywie negatywne (false negative)
  29. x dokładność klasyfikacji obliczamy za pomocą wzoru (TP)/(TP+FP)
  30. o dokładność klasyfikacji obliczamy za pomocą wzoru: (TP+TN)/(TP+TN+FP+FN)
  31. o czułość obliczamy za pomocą wzoru: (TP)/(TP+FN)
  32. x czułość obliczamy za pomocą wzoru: (FP)/(FP+TP)
  33.  
  34.  
  35. 7.Czyszczenie danych to ogólna nazwa na jeden z etapów przetwarzania wstępnego. Które z poniższych metod można wykorzystać na tym etapie?
  36. o analiza brakujących wartości
  37. o kubełkowanie
  38.  
  39. 8.Wybierz poprawne pary - algorytm indukcji drzewa decyzyjnego - metoda wyboru najlepszego atrybutu
  40. o ID3 - information gain
  41. o C4.5 - gain ratio
  42. x ID3 - gain ratio
  43. x C4.5 - gini index
  44.  
  45. 9.Dany jest zbiór atrybutów (a1, a2, a3) oraz zbiory wartości tych atrybutów:
  46. a1 = (czarny, niebieski, brązowy, zielony),
  47. a2 = (niski, średni, wysoki)
  48. a3 = (156, 160, 190, 120)
  49. o atrybut a1 jest atrybutem nominalnym
  50. o atrybut a2 jest atrybutem porządkowym
  51. o atrybut a3 jest atrybutem ilościowym
  52.  
  53. 10. Proszę wskazać jakie parametry z wymienionych poniżej należy podać dla algorytmu grupowania DBSCAN:
  54. o Parametr definiujący promień analizowanego sąsiedztwa każdego obiektu danych
  55. o parametr definiujący liczbę sąsiadów stanowiących o gęstości analizowanego sąsiedztwa
  56.  
  57. 11. Dana jest tablica decyzyjna zawierająca 40 obiektów, w której wyróżniono dwie klasy decyzyjne. Liczność pierwszej z nich wynosi 20 obiektów, a liczność drugiej z nich wynosi 20 obiektów. Ile wynosi entropia całego zbioru ?
  58. o 1
  59.  
  60. 12.Która z poniższych metod wizualizacji pozwala na wyróżnienie społeczności w sieci społecznej ?
  61. o spring-embedder
  62. o multidimensional scaling
  63.  
  64. 13. Zdania prawdziwe odnośnie dwumodalnej sieci:
  65. o ma dwa rodzaje węzłów
  66. o węzły jednego rodzaju nie są ze sobą połączone
  67. o posiada tylko połączenia pomiędzy węzłami różnego rodzaju
  68.  
  69. 14. Dwie tablice decyzyjne T1 z decyzjami 40%/60% i T2 z decyzjami 10%/90%
  70. o entropia T1 jest większa od T2
  71. o entropia T1 jest zbliżona do 1
  72. x entropia T1 jest zbliżona do 0
  73.  
  74. 15. Co to jest degree ?
  75. o Określa liczbę powiązań danego węzła
  76. o Miara lokalna węzła
  77.  
  78. 16. Zdania dotyczące strumieniowej analizy danych
  79. o ograniczony czas na analizę
  80. o ograniczona pojemność bufora danych
  81. o dane nadchodzą szybko
  82. o danych się nie przechowuje, tylko ich agregacje
  83. o coś z ograniczonym dostępem, brak możliwości przeglądania starych danych
  84.  
  85.  
  86. 17.Metoda wizualizacji sieci społecznych o nazwie Fruchterman-Reingold:
  87. o ułatwia analizę społeczności
  88. o wykorzystuje fizyczny model oddziaływań (sprężyny-powiązania i ładunki-węzły) w celu przedstawienia sieci
  89. o układa węzły hierarchicznie zgodnie z wartościami wybranej centralności
  90. x układa węzły na okręgu, wewnątrz którego narysowane są powiązania
  91.  
  92. 18.Dane są wektory:
  93. A = [1 3 4 5 7]
  94. B = [0.2 0.1 0.05 0.02 0.01]
  95. C = [10 5 18 12 20]
  96. o Wektory A i B są skorelowane ujemnie
  97. x Współczynnik korelacji pozwala na obliczenie odległości pomiędzy dwoma wektorami
  98. x Wektory A i C są ze sobą skorelowane ujemnie
  99. x Wektory A i B są ze sobą skorelowane dodatnio
  100.  
  101. 19. Wartość miary entropii dla rzutu monetą wynosi:
  102. x 0.5
  103. o 1
  104. x 0
  105. x -0.5
  106.  
  107. 20. Algorytm identyfikacji społeczności w sieci społecznej zaproponowany przez Givan-Newman ( algorytm hierarchiczny dzielący)
  108. o ma złożoność zbyt dużą do analizy dużych sieci (np. 1000000 węzłów)
  109. o bazuje na centralności betweeness dla krawędzi
  110. x bazuje na centralności betweeness dla węzłów
  111. o w kolejnych iteracjach dzieli sieć na społeczności usuwając kolejne krawędzie
  112.  
  113. 21. Pytanie o betweenness:
  114. o określa liczbę najkrótszych ścieżek przechodzących przez dany węzeł
  115. o jest wysoka dla węzła łączącego dwie społeczności
  116.  
  117. 22. Dobór preferencyjny w sieciach społecznych polega na tym, że:
  118. o bardziej prawdopodobne jest połączenie się nowego węzła w sieci z węzłami mającymi względnie dużo powiązań
  119. x bardziej prawdopodobne jest połączenie się nowego węzłą w sieci z węzłami mającmi względnie mało powiązań
  120. x prawdopodobieństwa połączenia się nowego węzła z każdym z pozostałych węzłów jest jednakowe
  121.  
  122. 23. Zaznacz poprawne odpowiedzi dotyczące różnych metod testowania jakości klasyfikatorów
  123. x W przypadku jeśli zbiór danych jest nieliczny, dobrą taktyką jest wykorzystanie całego zbioru danych zarówno na etapie uczenia klasyfikatora jak i testowania jego jakości gdyż dzięki temu klasyfikator dostanie więcej informacji o obiektach na etapie uczenia
  124. x 10-krotna stratyfikowana walidacja krzyżowa to metoda oceny jakości klasyfikatora, która dzieli zbiór danych w taki sposób, że losowo 70% obiektów stanowi zbiór treningowy a 30% zbiór testowy, Procedura ta powtarzana jest 10 razy, a jakość klasyfikatora jest średnią z jakości klasyfikacji 10-ciu powtórzeń
  125. o W przypadku jeśli zbiór danych jest nieliczny, lepiej będzie zastosować metodą leave-one-out niż 10-krotną walidację krzyżową
  126.  
  127. 24. Dany jest system informacyjny SU=(U,A). Zaznacz poprawne odpowiedzi:
  128. x przyjmując jako miarę odległości euklidesową, para obiektów x i y jest do siebie bardziej podobna niż para obiektów y i z
  129. x odległość euklidesowa pomiędzy parą obiektów x i y wynosi 25
  130. x odległość euklidesowa pomiędzy parą obiektów x i y wynosi 10
  131. o odległość euklidesowa pomiędzy parą obiektów x i y wynosi 5
  132. |a|b
  133. x 5 6
  134. y 2 2
  135. z 1 0
  136.  
  137. 25. Przetwarzanie strumieni danych charakteryzuje:
  138. o wyznaczanie podziału danych na treningowe i testowe
  139. o szybki napływ danych
  140. o przechowywanie jedynie zagregowanych charakterystyk zamiast danych
  141. o stosowanie liniowych lub sub-liniowych metod analizy
  142.  
  143. 26. Centralność closeness węzła sieci społecznej:
  144. x jest największa dla węzłów mających jedno powiązanie
  145. ? zależy od liczby najkrótszych ścieżek w sieci wychodzących z danego węzła
  146. o zależy od długości najkrótszych ścieżek w sieci wychodzących z danego węzła
  147. o zależy od liczby powiązań węzła
  148.  
  149. 27. podejście typu prequential do oceny jakości modelu wyznaczonego dla danych strumieniowych polega m.in. na:
  150. x testowaniu modelu na specjalnie wydzielonych danych testowych
  151. o testowaniu modelu na nadchodzących danych, które w kolejnym kroku posłużą do uczenia tego modelu
  152. o wyznaczaniu błędu modelu jako skumulowanej sumy wartości funkcji straty, której wartość wyznaczana jest dla kolejnych przykładów
  153.  
  154. 28. Dany jest zbiór wartości pewnego atrybutu a. Wartość minimalna w tym zbiorze wynosi 300, a maksymalna 2700. Jaki będzie wynik normalizacji min-max do zakresu 0-1 dla konkretnej wartości tego atrybutu równej 900.
  155. x 0.75
  156. o 0.25
  157. x 0.6
  158. x 0.5
  159.  
  160. 29. Pytanie o leave-one-out
  161. o jest n-1 zbiorów treningowych, 1 testowy
  162. o algorytm wywoływany jest n razy
  163.  
  164. 30.Policzyć specyficzność i dokładność, TP=30, TN=20, FP=40, FN=10
  165. o specyficzność = 0.33
  166. o dokładność = 0.5
  167.  
  168. 31. Społeczność utworzona przez ludzi
  169. o zwykle węzeł ma niewiele powiązań
  170. o nieliczne węzły mają bardzo wiele powiązań
  171. o Bardzo wiele powiązań pomiędzy więzłami
  172.  
  173. 32. Zaznacz poprawne odpowiedzi dotyczące algorytmu indukcji reguł CN2
  174. x Algorytm działanie rozpoczyna od wygenerowania najbardziej szczegółowej reguły która jest potem uogólniona
  175. o Algorytm działanie rozpoczyna od wygenerowania najbardziej ogólnej reguły która jest potem uszczegółowiona
  176. o Jest to algorytm pokryciowy
  177. x Algorytm generuje tylko takie reguły, które są dokładne
  178.  
  179. 33. Współczynnik grupowania (ang. clustering coefficient) węzłów sieci społecznej:
  180. x charakteryzuje poprawność (przyporządkowanie węzła do społeczności
  181. o określa jak silnie sąsiedzi danego węzła są ze sobą powiązani
  182. x zależy od liczby najkrótszych ścieżek wychodzących z danego węzła
  183. x zależy od centralności eigenvector danego węzła
  184.  
  185. 34. Co robi metoda adaptacyjna ?
  186. o Wykrywa concept concept drift
  187. o Reaguje na concept drift (pozwala zmieniać model)
  188.  
  189. 35. Na czym polega wykres kołowy? (pewnie chodzi o wizualizację kołową węzłów sieci społecznej
  190. o Coś tam po okręgu
  191. x Coś tam radialnie
  192.  
  193. GRUPA A i B 2014
  194. ---------------------------------
  195. 1. Proszę wskazać jakie parametry z wymienionych poniżej należy podać dla algorytmu grupowania k-średnich
  196. x parametr definiujący promień analizowanego sąsiedztwa każdego obiektu danych
  197. o parametr definiujący liczbę iteracji
  198. o parametr definiujący liczbę grup
  199. x parametr definiujący liczbę sąsiadów stanowiących o gęstości analizowanego sąsiedztwa
  200.  
  201. 2. Proszę wskazać co jest efektem działania algorytmu grupowania hierarchicznego scalającego
  202. o dendrogram
  203. x rozmyta macierz podziału
  204. x ostra macierz podziału
  205.  
  206. 3. Liczbę sąsiadów węzła w sieci społecznej (węzłów, z którymi dany węzeł jest powiązany) określa:
  207. x centralność closeness
  208. o stopień węzła
  209. x współczynnik grupowania
  210.  
  211. 4. Społeczność w sieci społecznej to:
  212. x grupa węzłów o podobnym stopniu
  213. x grupa węzłów o podobnej wartości współczynnika grupowania
  214. o grupa węzłów o większej liczbie powiązań między sobą niż z resztą sieci
  215.  
  216. 5. Regresja liniowa y=ax+b to przykład regresji:
  217. x półparametrycznej
  218. x nieparametrycznej
  219. o parametrycznej
  220.  
  221. 6. Warunkiem koniecznym funkcji jądra jest:
  222. o RK(x)dx=1
  223. o SK(x)=K(-x)
  224. x K(0)=1
  225.  
  226. 7. Zbiór danych składa się z 4 obiektów o1,o2,o3,o4 opisanych atrybutem a i przypisanych do jednej z dwóch klas decyzyjnych (atrybut class). Entropia warunkowa (ważona) tego zbioru przykładów ze względu na podział zakresu wartości atrybutu a za pomocą wartości progowej równej 2.5:
  227. x przyjmuje wartość ujemną
  228. x przyjmuje wartość równą 0,5
  229. o jest liczbą z przedziału obustronnie domkniętego [0;1]
  230. o jest taka sama jak dla wartości progowej równej 2,75
  231.  
  232. a| class
  233. o1 4 +
  234. o2 3 -
  235. o3 2 +
  236. o4 1 -
  237.  
  238. 8. Metoda dyskretyzacji według równej częstości:
  239. x wymaga znajomości klas decyzyjnych przykładów
  240. x zamienia wartości atrybutu numerycznego na wartości binarne
  241. o wymaga podania parametru określającego liczbę wynikowych przedziałów
  242. o jest bardziej oporna na wartości odstające niż metoda dyskretyzacji według równej szerokości przedziałów
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement