Advertisement
Guest User

dszt

a guest
Jan 22nd, 2020
103
0
Never
Not a member of Pastebin yet? Sign Up, it unlocks many cool features!
text 11.75 KB | None | 0 0
  1. Wzorki:
  2. dokładność = TP+TN / TP+TN+FP+FN'
  3. czułość = TP/ TP+ FN'
  4. specyficzność = TN / TN+FP
  5. entropia = - (1/2 *log2(1/2) + 1/2 *log2(1/2)) - przykładowo
  6. <img src ='https://wikimedia.org/api/rest_v1/media/math/render/svg/7debf920f90b5176505d60e6923b3539668a1718'>
  7. normalizacja = (x-min/ max-min) - tyle starcza jak przedział 0-1, (x-min/max-min)*(newmax - newmin) +newmin
  8. odległość = sqrt((xa - xb)^2 + (ya - yb)^2 + (za - zb)^2)
  9.  
  10.  
  11. 1.Proszę wskazać jakie parametry z wymienionych poniżej należy podać dla algorytmu grupowania k-średnich:
  12. o parametr definiujący maksymalną liczbę iteracji wykonania algorytmu
  13. o parametr definiujący liczbę grup
  14.  
  15. 2.Proszę wskazać poprawne zdania dotyczące sieci społecznych:
  16. o rozkład stopni węzłów sieci społecznej jest rozkładem potęgowym
  17. o w sieciach społecznych występuje zjawisko małego świata (ang. small world phenomenon)
  18.  
  19. 3.Liczbę sąsiadów węzła w sieci społecznej (węzłów, z którymi dany węzeł jest powiązany) określa:
  20. o centralność degree
  21.  
  22. 4.Dla poniższej tablicy decyzyjnej zdefiniowano regułę decyzyjną IF aura=deszczowa and temperatura=umiarkowana THEN c=1
  23. o reguła wspiera 2 obiekty
  24. o reguła rozpoznaje 3 obiekty
  25.  
  26. 5.Poniżej przedstawiono dwuwymiarowy zbiór danych podzielony na grupy (każda grupa wyróżniona jest innym znakiem graficznym)
  27. o DBSCAN
  28.  
  29. 6.Przyjmując następujące oznaczenia: TP - wyniki prawdziwie pozytywne (true positive), TN - wyniki prawdziwie negatywne (true negative), FP - wyniki fałszywie pozytywne (false positive), FN - wyniki fałszywie negatywne (false negative)
  30. x dokładność klasyfikacji obliczamy za pomocą wzoru (TP)/(TP+FP)
  31. o dokładność klasyfikacji obliczamy za pomocą wzoru: (TP+TN)/(TP+TN+FP+FN)
  32. o czułość obliczamy za pomocą wzoru: (TP)/(TP+FN)
  33. x czułość obliczamy za pomocą wzoru: (FP)/(FP+TP)
  34.  
  35.  
  36. 7.Czyszczenie danych to ogólna nazwa na jeden z etapów przetwarzania wstępnego. Które z poniższych metod można wykorzystać na tym etapie?
  37. o analiza brakujących wartości
  38. o kubełkowanie
  39.  
  40. 8.Wybierz poprawne pary - algorytm indukcji drzewa decyzyjnego - metoda wyboru najlepszego atrybutu
  41. o ID3 - information gain
  42. o C4.5 - gain ratio
  43. x ID3 - gain ratio
  44. x C4.5 - gini index
  45.  
  46. 9.Dany jest zbiór atrybutów (a1, a2, a3) oraz zbiory wartości tych atrybutów:
  47. a1 = (czarny, niebieski, brązowy, zielony),
  48. a2 = (niski, średni, wysoki)
  49. a3 = (156, 160, 190, 120)
  50. o atrybut a1 jest atrybutem nominalnym
  51. o atrybut a2 jest atrybutem porządkowym
  52. o atrybut a3 jest atrybutem ilościowym
  53.  
  54. 10. Proszę wskazać jakie parametry z wymienionych poniżej należy podać dla algorytmu grupowania DBSCAN:
  55. o Parametr definiujący promień analizowanego sąsiedztwa każdego obiektu danych
  56. o parametr definiujący liczbę sąsiadów stanowiących o gęstości analizowanego sąsiedztwa
  57.  
  58. 11. Dana jest tablica decyzyjna zawierająca 40 obiektów, w której wyróżniono dwie klasy decyzyjne. Liczność pierwszej z nich wynosi 20 obiektów, a liczność drugiej z nich wynosi 20 obiektów. Ile wynosi entropia całego zbioru ?
  59. o 1
  60.  
  61. 12.Która z poniższych metod wizualizacji pozwala na wyróżnienie społeczności w sieci społecznej ?
  62. o spring-embedder
  63. o multidimensional scaling
  64.  
  65. 13. Zdania prawdziwe odnośnie dwumodalnej sieci:
  66. o ma dwa rodzaje węzłów
  67. o węzły jednego rodzaju nie są ze sobą połączone
  68. o posiada tylko połączenia pomiędzy węzłami różnego rodzaju
  69.  
  70. 14. Dwie tablice decyzyjne T1 z decyzjami 40%/60% i T2 z decyzjami 10%/90%
  71. o entropia T1 jest większa od T2
  72. o entropia T1 jest zbliżona do 1
  73. x entropia T1 jest zbliżona do 0
  74.  
  75. 15. Co to jest degree ?
  76. o Określa liczbę powiązań danego węzła
  77. o Miara lokalna węzła
  78.  
  79. 16. Zdania dotyczące strumieniowej analizy danych
  80. o ograniczony czas na analizę
  81. o ograniczona pojemność bufora danych
  82. o dane nadchodzą szybko
  83. o danych się nie przechowuje, tylko ich agregacje
  84. o coś z ograniczonym dostępem, brak możliwości przeglądania starych danych
  85.  
  86.  
  87. 17.Metoda wizualizacji sieci społecznych o nazwie Fruchterman-Reingold:
  88. o ułatwia analizę społeczności
  89. o wykorzystuje fizyczny model oddziaływań (sprężyny-powiązania i ładunki-węzły) w celu przedstawienia sieci
  90. o układa węzły hierarchicznie zgodnie z wartościami wybranej centralności
  91. x układa węzły na okręgu, wewnątrz którego narysowane są powiązania
  92.  
  93. 18.Dane są wektory:
  94. A = [1 3 4 5 7]
  95. B = [0.2 0.1 0.05 0.02 0.01]
  96. C = [10 5 18 12 20]
  97. o Wektory A i B są skorelowane ujemnie
  98. x Współczynnik korelacji pozwala na obliczenie odległości pomiędzy dwoma wektorami
  99. x Wektory A i C są ze sobą skorelowane ujemnie
  100. x Wektory A i B są ze sobą skorelowane dodatnio
  101.  
  102. 19. Wartość miary entropii dla rzutu monetą wynosi:
  103. x 0.5
  104. o 1
  105. x 0
  106. x -0.5
  107.  
  108. 20. Algorytm identyfikacji społeczności w sieci społecznej zaproponowany przez Givan-Newman ( algorytm hierarchiczny dzielący)
  109. o ma złożoność zbyt dużą do analizy dużych sieci (np. 1000000 węzłów)
  110. o bazuje na centralności betweeness dla krawędzi
  111. x bazuje na centralności betweeness dla węzłów
  112. o w kolejnych iteracjach dzieli sieć na społeczności usuwając kolejne krawędzie
  113.  
  114. 21. Pytanie o betweenness:
  115. o określa liczbę najkrótszych ścieżek przechodzących przez dany węzeł
  116. o jest wysoka dla węzła łączącego dwie społeczności
  117.  
  118. 22. Dobór preferencyjny w sieciach społecznych polega na tym, że:
  119. o bardziej prawdopodobne jest połączenie się nowego węzła w sieci z węzłami mającymi względnie dużo powiązań
  120. x bardziej prawdopodobne jest połączenie się nowego węzłą w sieci z węzłami mającmi względnie mało powiązań
  121. x prawdopodobieństwa połączenia się nowego węzła z każdym z pozostałych węzłów jest jednakowe
  122.  
  123. 23. Zaznacz poprawne odpowiedzi dotyczące różnych metod testowania jakości klasyfikatorów
  124. x W przypadku jeśli zbiór danych jest nieliczny, dobrą taktyką jest wykorzystanie całego zbioru danych zarówno na etapie uczenia klasyfikatora jak i testowania jego jakości gdyż dzięki temu klasyfikator dostanie więcej informacji o obiektach na etapie uczenia
  125. x 10-krotna stratyfikowana walidacja krzyżowa to metoda oceny jakości klasyfikatora, która dzieli zbiór danych w taki sposób, że losowo 70% obiektów stanowi zbiór treningowy a 30% zbiór testowy, Procedura ta powtarzana jest 10 razy, a jakość klasyfikatora jest średnią z jakości klasyfikacji 10-ciu powtórzeń
  126. o W przypadku jeśli zbiór danych jest nieliczny, lepiej będzie zastosować metodą leave-one-out niż 10-krotną walidację krzyżową
  127.  
  128. 24. Dany jest system informacyjny SU=(U,A). Zaznacz poprawne odpowiedzi:
  129. x przyjmując jako miarę odległości euklidesową, para obiektów x i y jest do siebie bardziej podobna niż para obiektów y i z
  130. x odległość euklidesowa pomiędzy parą obiektów x i y wynosi 25
  131. x odległość euklidesowa pomiędzy parą obiektów x i y wynosi 10
  132. o odległość euklidesowa pomiędzy parą obiektów x i y wynosi 5
  133. |a|b
  134. x 5 6
  135. y 2 2
  136. z 1 0
  137.  
  138. 25. Przetwarzanie strumieni danych charakteryzuje:
  139. o wyznaczanie podziału danych na treningowe i testowe
  140. o szybki napływ danych
  141. o przechowywanie jedynie zagregowanych charakterystyk zamiast danych
  142. o stosowanie liniowych lub sub-liniowych metod analizy
  143.  
  144. 26. Centralność closeness węzła sieci społecznej:
  145. x jest największa dla węzłów mających jedno powiązanie
  146. ? zależy od liczby najkrótszych ścieżek w sieci wychodzących z danego węzła
  147. o zależy od długości najkrótszych ścieżek w sieci wychodzących z danego węzła
  148. o zależy od liczby powiązań węzła
  149.  
  150. 27. podejście typu prequential do oceny jakości modelu wyznaczonego dla danych strumieniowych polega m.in. na:
  151. x testowaniu modelu na specjalnie wydzielonych danych testowych
  152. o testowaniu modelu na nadchodzących danych, które w kolejnym kroku posłużą do uczenia tego modelu
  153. o wyznaczaniu błędu modelu jako skumulowanej sumy wartości funkcji straty, której wartość wyznaczana jest dla kolejnych przykładów
  154.  
  155. 28. Dany jest zbiór wartości pewnego atrybutu a. Wartość minimalna w tym zbiorze wynosi 300, a maksymalna 2700. Jaki będzie wynik normalizacji min-max do zakresu 0-1 dla konkretnej wartości tego atrybutu równej 900.
  156. x 0.75
  157. o 0.25
  158. x 0.6
  159. x 0.5
  160.  
  161. 29. Pytanie o leave-one-out
  162. o jest n-1 zbiorów treningowych, 1 testowy
  163. o algorytm wywoływany jest n razy
  164.  
  165. 30.Policzyć specyficzność i dokładność, TP=30, TN=20, FP=40, FN=10
  166. o specyficzność = 0.33
  167. o dokładność = 0.5
  168.  
  169. 31. Społeczność utworzona przez ludzi
  170. o zwykle węzeł ma niewiele powiązań
  171. o nieliczne węzły mają bardzo wiele powiązań
  172. o Bardzo wiele powiązań pomiędzy więzłami
  173.  
  174. 32. Zaznacz poprawne odpowiedzi dotyczące algorytmu indukcji reguł CN2
  175. x Algorytm działanie rozpoczyna od wygenerowania najbardziej szczegółowej reguły która jest potem uogólniona
  176. o Algorytm działanie rozpoczyna od wygenerowania najbardziej ogólnej reguły która jest potem uszczegółowiona
  177. o Jest to algorytm pokryciowy
  178. x Algorytm generuje tylko takie reguły, które są dokładne
  179.  
  180. 33. Współczynnik grupowania (ang. clustering coefficient) węzłów sieci społecznej:
  181. x charakteryzuje poprawność (przyporządkowanie węzła do społeczności
  182. o określa jak silnie sąsiedzi danego węzła są ze sobą powiązani
  183. x zależy od liczby najkrótszych ścieżek wychodzących z danego węzła
  184. x zależy od centralności eigenvector danego węzła
  185.  
  186. 34. Co robi metoda adaptacyjna ?
  187. o Wykrywa concept concept drift
  188. o Reaguje na concept drift (pozwala zmieniać model)
  189.  
  190. 35. Na czym polega wykres kołowy? (pewnie chodzi o wizualizację kołową węzłów sieci społecznej
  191. o Coś tam po okręgu
  192. x Coś tam radialnie
  193.  
  194. GRUPA A i B 2014
  195. ---------------------------------
  196. 1. Proszę wskazać jakie parametry z wymienionych poniżej należy podać dla algorytmu grupowania k-średnich
  197. x parametr definiujący promień analizowanego sąsiedztwa każdego obiektu danych
  198. o parametr definiujący liczbę iteracji
  199. o parametr definiujący liczbę grup
  200. x parametr definiujący liczbę sąsiadów stanowiących o gęstości analizowanego sąsiedztwa
  201.  
  202. 2. Proszę wskazać co jest efektem działania algorytmu grupowania hierarchicznego scalającego
  203. o dendrogram
  204. x rozmyta macierz podziału
  205. x ostra macierz podziału
  206.  
  207. 3. Liczbę sąsiadów węzła w sieci społecznej (węzłów, z którymi dany węzeł jest powiązany) określa:
  208. x centralność closeness
  209. o stopień węzła
  210. x współczynnik grupowania
  211.  
  212. 4. Społeczność w sieci społecznej to:
  213. x grupa węzłów o podobnym stopniu
  214. x grupa węzłów o podobnej wartości współczynnika grupowania
  215. o grupa węzłów o większej liczbie powiązań między sobą niż z resztą sieci
  216.  
  217. 5. Regresja liniowa y=ax+b to przykład regresji:
  218. x półparametrycznej
  219. x nieparametrycznej
  220. o parametrycznej
  221.  
  222. 6. Warunkiem koniecznym funkcji jądra jest:
  223. o RK(x)dx=1
  224. o SK(x)=K(-x)
  225. x K(0)=1
  226.  
  227. 7. Zbiór danych składa się z 4 obiektów o1,o2,o3,o4 opisanych atrybutem a i przypisanych do jednej z dwóch klas decyzyjnych (atrybut class). Entropia warunkowa (ważona) tego zbioru przykładów ze względu na podział zakresu wartości atrybutu a za pomocą wartości progowej równej 2.5:
  228. x przyjmuje wartość ujemną
  229. x przyjmuje wartość równą 0,5
  230. o jest liczbą z przedziału obustronnie domkniętego [0;1]
  231. o jest taka sama jak dla wartości progowej równej 2,75
  232.  
  233. a| class
  234. o1 4 +
  235. o2 3 -
  236. o3 2 +
  237. o4 1 -
  238.  
  239. 8. Metoda dyskretyzacji według równej częstości:
  240. x wymaga znajomości klas decyzyjnych przykładów
  241. x zamienia wartości atrybutu numerycznego na wartości binarne
  242. o wymaga podania parametru określającego liczbę wynikowych przedziałów
  243. o jest bardziej oporna na wartości odstające niż metoda dyskretyzacji według równej szerokości przedziałów
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement