Advertisement
Guest User

Untitled

a guest
Aug 26th, 2016
97
0
Never
Not a member of Pastebin yet? Sign Up, it unlocks many cool features!
text 30.66 KB | None | 0 0
  1. SPSS 3
  2.  
  3. 1 ) Wstęp i progrma zajęć :
  4.  
  5. * Analiza danych - opis statystyczny
  6. # Raport wyników
  7. # Statystyki opisowe
  8. # Częstości
  9. # Eksploracje
  10. # Tabele krzyżowe
  11. * Podzial danych na podzbiory
  12. * Warunkowy wybór obserwacji
  13. * Graficzne przedstawienie danych dla różnych typów zmiennych
  14.  
  15. 2 ) Okno raportu
  16.  
  17. 1.jpeg
  18.  
  19. Wyniki przeprowadzonych analiz przy pomocy różnych narzędzi SPSS wyświetlane są w osobnym oknie jako raport.
  20. * Okno raportu składa się z dwóch części:
  21. # Okna obiektów o drzewiastej strukturze (po lewej stronie)
  22. # Okna właściwych wyników (po prawej stronie)
  23. * Drzewiasta struktura ma za zadanie szybkie przełączanie i wyświetlanie określonych partii wyników, bez potrzeby przewijania długich stron,
  24. często dużej ilości zbędnych informacji.
  25. * Pojedyncze obiekty raportu, ale również ich grupy można kopiować, przenosić, usuwać, zarówno w głównym oknie wyników, jak i w powiązanym z nim
  26. oknie obiektów.
  27. * Każdy element raportu można edytować.
  28. * Edycję zaznaczonego elementu aktywuje się dwukrotnym kliknięciem na nim (obiekt zostanie otoczony przerywaną linią), a następnie poprzez
  29. wybrane opcje menu kontekstowego (wywołany prawym klawiszem myszki) dokonuje się zmian bądź poprzez Edycję zawartości --> W oknie raportu.
  30. W osobnym oknie - wywołanie prawym klawiszem myszy.
  31.  
  32.  
  33. Bezpośrednio z okna raportu wyniki (obiekty składowe raportu) można eksportować do innych formatów: pdf, doc, xls etc. Jest przy tym rzeczą wyboru,
  34. czy eksportowane będą wszystkie obiekty całego raportu, aktualnie widoczne na ekranie, czy tylko wybrane (zaznaczone) elementy.
  35.  
  36. 3 ) Statystki opisowe
  37.  
  38. 2.jpeg
  39.  
  40. Analiza --> Opis Statystyczny --> Statystyki opisowe
  41.  
  42. Narzędzie pozwala na :
  43. * określenie miar tendencji centralnej (położenia rozkładu): średnia, suma
  44. * określenia miar rozproszenia (zróżnicowania rozkładu): odchylenie std, wariancja, rozstęp, minimum, maksimum, błąd standardowej średniej
  45. * określenie miar koncentracji i asymetrii rozkładu: spłaszczenie - kurtoza, skosność
  46. * wyliczenie wartości standaryzowanych dla zmiennych wejściowych
  47. * zmianę porządku wyświetlania wg, listy zmiennych, alfabetycznie ,wg średniej
  48.  
  49. 3.1 ) Statystki opisowe - raport
  50.  
  51. W oknie raportu wyniki analiz przedstawiane są w formie tabeli :
  52.  
  53. 2_1.jpeg
  54.  
  55. * Pierwsza kolumna: etykiety/ nazwy zmiennych
  56. * Druga kolumna: liczba ważnych obserwacji
  57. * Trzecia, czwarta, piąta ...zależnie od zaznaczonych opcji, obliczane statystki
  58. * Kolejne wiersze oznaczają wybrane zmienne
  59.  
  60.  
  61.  
  62. 3.2 ) Statystki opisower - ćwiczenia
  63.  
  64. Ćwiczenie 1
  65. Obliczyć miary tendencji centralnej i jednocześnie dokonać standaryzacji analizowanych zmiennych typu ilościowego. Usunąć z raportu zbędne obiekty -
  66. pozostawić tylko tabelę obliczonych wartości. Porównać wartości wybranej zestandaryzowanej zmiennej z wartościami obliczonymi z wykorzystaniem
  67. narzędzia, obliczanie wartości zmiennej
  68.  
  69. Ćwiczenie 2
  70. Określić koncentrację i asymetrię rozkładu, a także rozproszenie względem średniej dla zmiennych prevexp i salary. Kolejność wyników wyświetlić rosnąco
  71. względem średniej.
  72.  
  73. Wartość 0(zero) współczynnika skośności określa rozkład symetryczny badanej cechy. W praktyce przyjmuje się ,żę gdy współczynnik jest mniejszy od 0.5
  74. rozkład badanej cechy jest symetryczny natomiast gdy jest on większy od 1 rozkład jest mocno skośny. Ujemne wartośći określają rozkłady lewostronnie
  75. asymetryczne (wydłużone lewe ramię rozkładu), a wartości dodatnie o asymetrii prawostronnej (długie prawie ramię rozkładu).
  76.  
  77. Ze względu na spłaszczenie - kurtozę, wyróżnia się rozkłady:
  78. mezokurtyczne - wartość współczynnika wynosi 0 (spłaszczenie jest jak dla rozkładu normalnego)
  79. leptokurtyczne - wartość współczynnika dodatnia oznacza, że wartości badanej cechy posiadają większą koncentrację niż przy rozkładzie normalnym
  80. (strzelisty wykres rozkładu funkcji prawdopodobieństwa)
  81. platokurtyczne - wartość współczynnika jest ujemna - mniejsza koncentracja niż przy rozkładzie normalnym (płaski wykres rozkładu funkcji prawdopodobieństwa)
  82.  
  83. 4 ) Częstości
  84.  
  85. Analiza --> Opis statystyczny --> Częstości
  86.  
  87. 3.jpeg
  88.  
  89. Narzędzie pozwala na :
  90. * - wyznaczanie tabel częstości obserwacji dla wybranych zmiennych
  91. * - organizację wyników: porównanie lub podział zmiennych
  92. * - wyznaczanie miar tendencji centralnej
  93. * - wyznaczanie miar rozproszenia
  94. * - wyznaczanie parametrów rozkładów
  95. * - wyznaczanie wartości percentyli
  96. * - tworzenie wykresów zarówno dla zmiennych ilościowych jak i jakościowych
  97. * - formatowanie wyników np w zależności od ilości kategorii zmiennych
  98.  
  99.  
  100. 3_1.jpeg
  101. Pierwsza tabela stanowi uzupełnienie. Wyświetla ona informacje według wybranych opcji. Jeżeli nie zaznaczymy żadnej z opcji to wyświetlona zostanie tylko
  102. liczebność próbki i braków danych (jakie mogą w niej występować).
  103. Kolumny reprezentują zmienne dla których w wierszach obliczone są wybrane statystki.
  104.  
  105. 3_2.jpeg
  106. W zależności od ilości wybranych zmiennych, wyświetlona zostanie odpowiednia ilość tabel. Każda z tablic posiada jednakową liczbę kolumn.
  107. * - pierwszą kolumnę stanowią etykity wartości zmiennej (stąd wyznaczanie częstości dla zmiennych ilościowych [ogromna ilość kategorii] nie ma sensu)
  108. * - druga kolumna : liczebność poszczególnych kategorii
  109. * - trzecia kolumna : procentowy udział poszczególnych kategroii (względem całości)
  110. * - czwarta kolumna : procentowy udział poszczególnych kategorii ważnych wartośći ( po odrzuceniu braków danych)
  111. * - piąta kolumna : suma udziałów procentowych aktualnej i poprzednich kategorii
  112. * - wiersze stanowią kategorie zmiennej, przy czym ostatni jest ostatni prezentuje liczbę wszystkich rekordów
  113.  
  114. 4.2 ) Częstości - ćwiczenia
  115.  
  116. Ćwiczenie 3
  117. Która grupa respondentów, ze względu na miesiąc urodzenia jest najliczniejsza? Jaki procent respondentów stanowi grupa urodzona w dwóch pierwszych kwartałach
  118. roku?
  119.  
  120. Ćwiczene 4
  121. Wyznaczyć tablice częstości i jednocześnie wszystkie miary rozproszoności, tendencji centralnej oraz wartości percentyli dla zmiennyhc: jobcat, minority, prevexp.
  122. Sformatować raport rosnąco według wartości, uwzględnić, że zmienna prevexp jest typu ilościowego i nie warto wyświetlać dla niej pełnej tablicy częstości -
  123. ograniczyć się do liczniejszej w kategorie spośród pozostałych dwóch zmiennych.
  124.  
  125. 5 ) Ekspolaracja
  126.  
  127. Procedura Ekploracja pozwala na utworzenie statystki podsumowującej oraz graficzną raprezentację danych dla wszystkich obserwacji, albo oddzielnie dla grup
  128. obserwacji.
  129.  
  130. Istnieje wiele powodów ,dla których warto używać procdery Ekploracja:
  131. * klasyfikowania danych
  132. * identyfikacja wartości odstających
  133. * sprawdzanie założeń oraz charakteryzowanie różnic pomiędzy kategoriami( grupami obserwacji)
  134.  
  135. Klasyfikowania danych może wykazać obceność wartości niezwykłych, wartości skrajnych, luk w danych lub innych osobliwości.
  136.  
  137. Eksploracja danych może być pomocna w ustaleniu, czy techniki statystyczne, których użytkownik ma zamiar użyć w celu analizy danych są odpowiednie. Ekspolaracja
  138. może wykazać ,że należy przekształcić dane, jeśli technika wymaga rozkładu normalnego. Użytkownik może też zdecydować się na zastosowanie testów nieparametrycznych :
  139. Analiza --> Opis statystyczny --> Ekspolaracja
  140.  
  141. 4.jpeg
  142.  
  143. * - wybieramy conajmniej jedną zmienną typu ilościowego --> Zmienne zależne
  144. * - opcjonalnie wybieramy :
  145. # - co najmniej jeden czynnik, którego wartości zdefiniuje grupy obserwacji (zmienne kategoryzująca) --> Listy czynników
  146. # - zmienną identyfikacyjną do opisu obserwacji
  147. * - wybieramy przycisk statystki
  148. # - statystki opisowe : pomiary tendencji, centralnej i rozproszenia itp. Wyświetlony jest również 95 % poziom przedziału ufności dla średniej
  149. # - M-estymatory : mocne alternatywy dla przykładowej średniej i mediany do oszacowania środka położenia. Obliczone estymatory różnią się wagami, które stosują do
  150. obserwacji. Wyświetlane są : estymator M Hubera, estymator fali Andrewsa, estymator M Hampela oraz estymator dwuwagi Tukeya.
  151. # - wartości skrajne : umożliwia wyświetlenie pięciu wartości najwiekszych i pięciu najmniejszych wraz z etykietami obserwacji
  152. # - percentyle : umożliwia wyświetlanie wartości dla 2., 10., 25., 50., 75. i 95 percentyla
  153.  
  154. 5.1 ) Ekspolaracja - ćwiczenia
  155.  
  156. Ćwiczenie 5
  157. Za pomocą Ekspolarcji sprawdzić ile średnio respondenci spędzają godzin przed telewizorem (tvhours) w zależności od poziomu wykształcenia. (degree)
  158.  
  159. Ćwiczenie 6
  160. Za pomocą Eksploracji dokonać analizy zmiennej wiek respondenta (age) ze względu na płeć (sex).
  161. Określić :
  162. a ) liczby analizowanych przypadków
  163. b ) średnią wieku : porównać ją z wartościami mocnych estymatorów
  164. c ) którzy respondenci (numer obserwacji) żyli najdłużej, najkrócej
  165.  
  166. Ćwiczenie 7
  167. Za pomocą Eksploracji określić wartość środkową zarobków (salary) ze względu na płeć (gender), wykształcenie(college). Czy możliwe jest określenie mediany zarobków ze
  168. względu na płeć dla zdefinowanych w zbiorze grup wykształcenia ?
  169.  
  170. 6 ) Tabele krzyżowe
  171.  
  172. Tabele krzyżowe(tabele kontyngencji) są popularnym i prostym narzędziem służacym do badania zależności pomiędzy zmiennymi o niskiej liczbie kategorii. Możliwe jest
  173. przedstawienie informacji, w jaki sposób kategorie(wartości) jednej zmiennej rozkładają się w kategoriach(wartościach) innej zmiennej, a więc prezentowane są wszystkie
  174. możliwe zależności ( chodzi o zależności poszczególnych wartości zmiennych - kategorii ) pomiędzy nimi.
  175.  
  176. Analiza --> Opis statystyczny --> Tabele krzyżowe
  177.  
  178. 5.jpeg
  179.  
  180. * Zmienne w wierszach i kolumnach to zmienne między którymi odsetek/liczbę obserwacji chcemy sprawdzić.
  181. * Warstwa zwiększa wymiar tabeli o kolejne kategorie. Dodanie jednej warstwy złożonej z dwóch wartości rozdzieli zależność pomiędzy zmiennymi w wierszu i kolumnie na dwie
  182. tabele(tyle ile jest w jednej warstwie kategorii ). Dodanie dwóch lub więcej warstw spowoduje wyświetlenie zależności w jednej tabeli, kolejno ze względu na zmienne
  183. warstwujące.
  184.  
  185. 5_1.jpeg
  186.  
  187. * Kolejność zmiennych: wiersz, kolumna nie ma znaczenia. W celu zwiększenia wyników, zaleca się umieszczanie zmiennych o mniejszej liczbie kategorii w kolumnach.
  188. * Opcja Komórki pozawala na łączny, lub rozłączny wybór sposobu prezentacji wartości. Na ogół we wstępnych analizach korzysta się z liczebnoci: obserwowanych, oczekiwane
  189. oraz procentów wyświetlanych dla wierszy, kolmn, ogółu.
  190. * Narzędzie nie tylko pozwala na okreśelenie liczebności obeserowowanych(empirycznych), ale również na wyznaczenie wartości oczekiwanych(teoretycznych), które przy założeniu
  191. niezależności zmiennych wynikają z iloczynów rozkładów brzegowych.
  192. * Opcje dotyczące statystyk omówione zostaną przy temacie korelacji i ilościowego wyznacznia miar siły związku/zależności zmiennych dyskretnych otrzymywanych przy pomocy testów
  193. statystycznych.
  194. * Pole reszty dotyczy wyznaczania różnic pomiędzy liczebnościami zaobserwowanymi i oczekiwanymi: niestandaryzowane(różnica obydwu liczebności), standaryzowane(różnica podzielona
  195. przez odchylenie std. tych różnic), skorygowane standaryzowane(różnica podzielona przez swój błąd standardowy)
  196.  
  197. 5_2.jpeg
  198.  
  199. Jako przykład zastosowania tabel krzyżowych chcemy sprawdzić:
  200. * jaki odsetek kobiet i mężczyzn posiada poziom wykształcenia high school?
  201. * jaki procent wszystkich badanych osób danej płci stanowią respondenci, którzy uzyskali bachelor?
  202. * jaki odsetek mężczyzn uzyskało gradute w stosunku do innych poziomów wyształcenia?
  203.  
  204. Po dodaniu do wiersza zmiennej płeć i do kolumny wykształcenie otrzymujemy :
  205.  
  206. * procent z wiersza : określa procentową wartość, jaką stanowi liczebność danej komórki w stosunku do liczby obserwacji wszystkich kategorii zmiennej umieszczonej w polu Zmienne w
  207. wierszach. W tym przypadku określa, jaki procent wszystkich respondentów tej samej płci stanowia osoby o różnych poziomach wyształcenia: np. najwiekszy odsetek 55.7% badanej próby
  208. stanowią kobiety z wykształceniem high school, a najmniejszy 5.4% graduate.
  209. * odsetek z kolumny : określa procentową wartość, jaką stanowi liczebność danej komórki w stosunku do liczby obserwacji wszystkich kategorii zmiennej umieszczonej w polu Zmienne w kolumnach.
  210. W tym przypadku określa, jaki procent osób z każdej kategorii określajacej poziom wykształcenia stanowią respondenci danej płci, np. mężczyźni stanowią tylko 39 % wszystkich respondentów z
  211. wykształceniem high school.
  212. * odsetek ogółem : określa procentową wartość, jaką stanowi liczebność danej komórki w stosunku do liczebności całej badanej próby: np - osoby ze stopniem bachelor stanowią 15.6% badnej próby,
  213. z czego kobiety stanowią 7.2%, a mężczyźni 8.4%
  214.  
  215. 5.1 )
  216.  
  217. Ćwiczenie 8
  218. Sprawdzić jaki odsetek wśród kobiet stanowią wdowy. Jaka jest różnica dla kobiet i mężczyzn w tej kategorii stanu cywilnego? Jaki procent ogółu stanowi grupa osób rozwiedzonych? Jaka jest liczba
  219. wszystkich kobiet bedących w zwiazku, a jaka wszystkich kobiet biorących udział w ankiecie?
  220.  
  221. Ćwiczenie 9
  222. Która kategoria wiekowa (agecat4) przejawia największe upodobanie do muzyki country, western(country) wśród tych, którzy lubią ten gatunek muzyki. Jaki odsetek stanowią kobiety, a jaki mężczyźni
  223. (sex). W której kategorii wiekowej występuje największy odsetek mężczyzn bardzo lubiących ten gatunek muzyki? Jaki procent stanowią respondenci z przedziału wiekowego 40-49 lat, którzy zdecydowanie
  224. nie lubią tego gatunku muzyki?
  225.  
  226. Ćwiczenie 10
  227. Jak zmienią się wyniki z poprzedniego zadania, jeżeli grupa osób na pytanie "czy lubisz muzykę coutnry" odpowiedziała "Nie wiem" połączmy z grupą która odpowiedziała "Zdecydowanie nie lubię"? Co
  228. należy uprzednio wykonać na danych, aby można było użyć tabel krzyżowych dla podanego przykładu ?
  229.  
  230. 6 ) Podział danych na podzbiory
  231.  
  232. Cały zbiór danych można analizować ze względu na określoną cechę/zmienną, jedną lub kilka. Oczywiście zmienna dyskretna w kategoriach której przeprowadzana będzie analiza nie powinna być zmienną
  233. ilościową , a więc powinna charakteryzować się wysoką częstością posiadanych wartośći.
  234.  
  235. Dane --> Podziel dane na podzbiory
  236.  
  237. 6.jpeg
  238.  
  239. W zależności od tego w jaki sposób mają być zestawione wyniki, należy wybrać właściwą opcję podziału danych w wywołanym oknie dialogowym.
  240. * Porównaj grupy - w oknie raportu wszystkie poszczególne wyniki analiz będą przedstawiane łącznie dla kategorii zmiennej dzielącej (jedna tabela wyników) tak, aby łatwe było porównanie, jak
  241. okreslona cecha zmienia się w kategoriach zmiennej grupującej.
  242. * Przedsaw wyniki w podziale na grupy - wszystkie wyniki analiz zostaną przedstawione rozłącznie w podzielone na tyl wyników składowych ile liczy zmienna dzieląca zbiór.
  243.  
  244. Podział danych sygnalizowany jest w pasku stanu okna głównego programu. Należy pamiętać, aby usunąć podział kiedy nie jest on już potrzebny.
  245.  
  246. 6.1 ) Podział danych na podzbiory - ćwiczenia
  247.  
  248. Ćwiczenie 11
  249. Obliczyć ile średnio zarabiają kobiety i mężczyźni (gender) w każdej z grup pracowniczych (jobcat). Przedstawić dane w porównaniu na grupy i w podziale na grupy.
  250.  
  251. Ćwiczene 12
  252. Określić średni wiek zawarcia pierwszego małżeństwa (agewed) ze względu na płeć (sex), rasę (race), poziom wykształcenia(degree) i region zamieszkania(region) respondenta.
  253.  
  254. 7 ) Warunkowy wybór obserwacji
  255.  
  256. Poddawane analizie dane można filtrować, czyli nie wszystkie obserwacje muszą być analizowane. Kryterium obiera użytkownik, wedle własnych potrzeb.
  257.  
  258. 7.jpeg
  259.  
  260. Dane --> Wybieranie obserwacji
  261.  
  262. * według warunku narzuconego na zmienną(e)
  263. * próbka pobierana jest losowo ze zbioru
  264. * z zaznaczonego zakresu obserwacji
  265. * poprzez jedną zmienną kategoryzującą
  266.  
  267. Dane filtrowane są na podstawie zmiennej dychtomicznej $filter tworzonej w oparciu o zdefinowany warunek.
  268.  
  269. Wprowadzony filtr danych jest aktywny do momentu anulowania w analogiczny sposób w jaki został włączony, a informacja wyświetlana jest w pasku stanu: Filtr włączony.
  270.  
  271. Obserwacje można równiez wybierać w każdym oknie dialogowym, które taką opcję posiada:
  272.  
  273. 7_1.jpeg
  274.  
  275. Z tym ,że jeżeli dokonamy warunkowego zaznaczenia obserwacji w zakresie danego okna dialogowego, to wybór będzie aktywny lokalnie, tzn ,że jeżeli przejdziemy do innego okna w celu wykonania innej
  276. analizy to warunki wyboru wartości zmiennych nie będą już aktywne.
  277.  
  278. Przykładem takiego okna jest Oblicz wartośći w menu Przekształcenia.
  279.  
  280. 7.1 ) Warunkowy wybór obserwacji - ćwiczenia
  281.  
  282. Ćwiczenie 13
  283. Ile osób, które ukończyły college(degree2) i są obecnie w stanie wolnym(martial) jest spod znaku (zodiac) barana lub lwa. Ile jest takich kobiet, a ile mężczyzn? W którym regionie (region4) jest
  284. najwięcej takich osób?
  285.  
  286. Ćwiczenie 14
  287. W jakim średnio wieku respodnenci zawierali pierwsze małżenstwo(agewed), mieszkający (xnorcsiz) na przedmieściach dużego miasta, lub w miastach większych niż 250tys, mający co najmniej dwójkę
  288. rodzeństwa (sibs), których dochód miesięczny(rincom91) wynosił od 8 do 15 tys dolarów. Ilu było takich respondentów w zależności od wieku? Ile było takich kobiet, a ilu mężczyzn?
  289.  
  290. 8 ) Graficzna prezentacja danych
  291.  
  292. 8.jpeg
  293.  
  294. Dobór metody graficznej prezentacji danych zależy od rodzaju zmiennej.
  295.  
  296. Inaczej postępujemy ze zmiennymi ilościowymi(duża ilość kategorii), a inaczej z nominalnymi/porządkowymi(wysoka częstość występowania poszczególnych wartości, przy niskiej ilości kategorii)
  297.  
  298. A - tego rodzaju wykresy stosuje się przeważnie do wizualizacji zmiennych dyskretnych o niskiej ilości kategorii
  299. B - tego rodzaju wykresy przeznaczone sa do prezentacji zmiennych ilościowych
  300.  
  301. Oczywiście nie są to bezwzględne reguły ze względu na poziom pomiaru zmiennej, program nie zaprotestuje jeżeli dodana zostanie zmienna innego typu.
  302.  
  303. 9 ) Wykresy (ogólnie)
  304.  
  305. W zależności jak chcemy przedstawić dane, czy interesuje nas kategorie danej zmiennej (A) czy istnieje potrzeba graficznego zestawienia określonych statystyk między zmiennych (B), albo po prostu
  306. chcemy zaprezentować wartości kolejnych obserwacji (C), zaznaczamy odpowiednie pole.
  307.  
  308. Pole to znajduje się w pierwszym oknie dialogowym pojawiającym się zaraz po wybraniu interesującego nas typu wykresu np: Wykresy --> Wykresy tradycyjny --> Słupkowy
  309.  
  310. 9.jpeg
  311.  
  312. W zależności od od tego w jaki sposób chcemy przedstawić wartości zmiennych na wykresie, wybieramy typ wykresu:
  313. * prosty
  314. * zgrupowany
  315. * zestawiony
  316. i określamy w jaki sposób mają być przedstawiane dane na wykresach:
  317. * opisy dla grup obserwacji
  318. * podsumowanie oddzielonych zmiennych
  319. * wartości poszczególnych zmiennych
  320.  
  321. A. W przypadku przedstawiania danych na wykresach, jako: opisy dla grup obserwacji mamy następujące typy wykresów :
  322. * Prosty - najczęściej używa się dla wyświetlania liczebności, procentu obserwacji jdenej zmiennej (nominalenj, porządkowej - o niskiej liczbie kategorii), dodanej do pola: Oś kategorii. Można
  323. również w kategoriach zmiennej zdefinowanej, jako oś kategorii wyświetlać statystki opisowej dowolnej innej zmiennej (również ilościowych), np. średni wiek respondentów (zmienna ilościowa) ze
  324. względu na płęć (nominalna)
  325. Jeżeli chcemy przedstawić opisane poprzednio cechy ze względu na kolejne zmienne (ich kategorie), to zmienne te nalży dodac do panelu Wiersze(jeżeli wykresy mają być przedstawione jeden obok
  326. drugiego), lub Kolumny (jeżeli wykresy mają być przedstawione jedne pod drugim).
  327.  
  328. * Zgrupowany - ten typ wykresu wybieramy, jeżeli chcemy porównać kategorie jednej zmiennej (pole: oś kategorii) w grupach innej zmiennej (pole: definiuj zestawienia przez) - obdywie zmienne
  329. powinny posiadać niską liczbę kategorii/grup) - podobnie jak poprzednio możemy wyznaczać ilość, procent w poszczególnych grupach obserwacji, ale również statystki opisowe ze względu na dowolną
  330. zmienną ilościową, np. jakie są średnie zarobki respondentów ze względu na płeć w poszczególnych regionach kraju.
  331. * Zestawiony - w przypadku tego typu prezentacji danych zmienne przedstawiane są podobnie, jak dla typu wykresu zgrupowanego z tym, że poszczególne kategorie zmiennej określone polem definiuj
  332. zestawienia przez prezentowane są nie obok siebie, ale w sposób skumulowany w jednej kolumnie.
  333.  
  334. B. Dla danych na wykresach przedstawionych, jako: podsumowanie oddzielonych zmiennych w zależności jaki typ wykresu wybierzemy: prost, zgrupowany, zestawiony możliwe jest wyznaczenie funkcji
  335. statystycznych jednej, lub kilku zmiennych - oś wartości OY przypisywana jest pierwszej wybranej zmiennej, dlatego należy pamiętać ,że ten sposób przedstawiania danych dotyczy zmiennych
  336. reprezentujących tą samą wielkość np. średni przychód respondenta w kolejnych kwartałach.
  337. C. W przypadku ostatniego rodzaju przedstawianie danych na wykresach, jako : wartości poszczególnych zmiennych, wyświetlane sa kolejne wartości obserwacji. Sortowanie obserwacji ma tutaj decydujący
  338. wpływ na wygląd generowanego wykresu.
  339.  
  340. 10 ) Wykresy słupkowe
  341.  
  342. Wykresy --> Wykresy tradycyjne --> Słupkowy --> Prosty, Opisy dla grup..
  343.  
  344. Tworzy wykres opisujący kategorie pojedynczej zmiennej. Wysokość słupka reprezentuje liczebność/procent kategorii zmiennej zdefiniowanej w polu oś kategorii, bądź funkcję wybranej zmiennej, którą
  345. można wybrać po zaznaczeniu opcji inna statystyka opisowa.
  346.  
  347. 10.jpeg
  348.  
  349. Zaznacz zmienną, której kategorię mają być wyznaczone na osi OX wykresu i przenieś ją w pole Oś kategorii.
  350.  
  351. Zaznacz jedną z możliwości w polu Słupki przedstawiają, aby określić wartość jakiej wielkości (ewentualnie funkcja jakiej zmiennej) będzie wyświetlona na osi OY wykresu.
  352.  
  353. Jeżeli oś wartości ma przedstawiać funckję innej zmiennej opisowej, zaznacz opcję Inna funkcja statystyczna (np. średnia), a następnie wybierz zmienną numeryczną, która ma zostać scharakteryzowana w
  354. kategoriach zmiennych zdefiniowanej w polu oś kategorii. Aby zmienić funkcję opisową, kliknij przycisk Zmień funkcję statystyczną.
  355.  
  356. Opcjonalnie do pola wiersza, kolumny dodaj kolejne zmienne, ze względu na kategorie których wyświetlone mają być dane.
  357.  
  358. 10. 1 ) Wykresy słupkowe - ćwiczenia
  359.  
  360. Ćwiczenie 15
  361. Przedstawić na wykresie słupkowym dominantę wieku respondentów w zależności od regionu zamieszkania.
  362.  
  363. Ćwiczenie 16
  364. a ) Przedstawić na wykresie słupkowym liczbę respondentów zmiennej region, w podziale na płeć, jako dwa oddzielne wykresy w wierszu
  365. b ) Przedstawić dane tak, aby liczby respondentów każdego regionu były zgrupowane według płci w obszarze jednego wykresu.
  366. c ) Zmodyfikować wykres z punktu b ) w ten sposób, aby słupki zawierały informacje o procentowamy udziale kategorii zmiennej.
  367.  
  368. 11 ) Wykresy kołowe
  369.  
  370.  
  371. Wykresy --> Wykresy tradycyjne --> Kołowy --> Opisy dla grup obserwacji
  372.  
  373. Tworzy wykres opisujący kategorie pojedynczej zmiennej.
  374.  
  375. Zaznacz zmienną i przenieś ją w pole Podziel według. Zmienna może być numeryczna, tekstowa lub długa tekstwoa.
  376.  
  377. Dla każdej kategorii zmiennej wycinka generowany jest jeden wycinek koła.
  378.  
  379. Zaznacz jedną z możliwości w grupie Wycinki przedstawiają, aby określić sposób przedstawienia danych na wycinkach wykresu kołowego.
  380.  
  381. Aby wyświetlić sumę wartości zmiennej, zaznacz opcję Podsumowanie zmiennej, a następnie zaznacz zmienną i przenieś ją w pole Zmienna. Zmienna ta musi być numeryczna.
  382.  
  383. 11.1 ) Wykresy kołowe - ćwiczenia
  384.  
  385. Ćwiczenie 17
  386. Przedstawić na wykresie kołowym procent respondentów zamieszkujących dany region kraju. Zmodyfikować wykres tak, aby na każdym wycinku widniała odpowiedająca mu wartość numeryczna procentowego udziału.
  387.  
  388. Ćwiczenie 18
  389. Przedstawić na wykresie kołowym sumę wartości zmiennej płeć, respondentów zamieszkujących dany region kraju. Zmodyfkiować wykres tak, aby wyświetlane były wartości liczowe sumowanej zmiennej. Zmienić
  390. efekt wyświetlania wykresu na "3-wymiarowy".
  391.  
  392. 12 ) Kreator wykresów
  393.  
  394. Wykresy --> Kreator wykresów
  395.  
  396. Dzięki kreatorowi wykresów można tworzyć wykresy ze wstępnie zdefiniowanej galerii lub budować je z poszczególnych części (np. osi i słupków). Wykresy buduje się poprzez przeciąganie i upuszczanie
  397. wykresów galerii lub części podstawowych do obszaru roboczego znajdującego się w oknie dialogowym kreatora po prawej stronie Listy zmiennych.
  398. Za pomocą Kreatora wykresów można nieco szybciej generować wykresy, jednocześnie oferuje on szereg funkcji niedostępnych w przypadku wykresów tradycyjnyc.
  399.  
  400. Wykres skrzynkowy(pudełkowy/skrzynka z wąsami) stosowany jest do przedstawiania rozkładu uporządkowanych wartości cechy. W szybki sposób, mozna analizować rozproszenie oraz typ skośności rozkładu cechy/
  401. zmiennej.
  402.  
  403. 11.jpeg
  404.  
  405. Na podstawie wykresu skrzynkowego możemy określić :
  406. * położenie wartości środkowej - mediany
  407. * wartość kwartyli (I i III)
  408. * położenie wartości zmiennej, które nie odstają od miar tendencji centralnej
  409. * wartości skrajnych i nietypowych
  410.  
  411. Wysokość pudełka to wartość rozstępu międzykwartylowego (I i III) - ćwiartkowego. Obszar pudełka zawiera 50 % wartości zmiennej/ cechy. Wąsy określają najniższe i najwyższe wartości nie odstające -
  412. znajdujące się w odległości nie większej niż 1.5 długości srzynki. Kółka to obserwacje, które mają wartości większe od 1.5 do 3 długości skrzynki od jej górnej lub dolnej krawędzi, a gwiazdka powyżej 3.
  413. Pozioma kreska wewnątrz pudełka to mediana.
  414.  
  415. Wnioskowanie o typie skośności rozkładu w oparciu o wykres skrzynkowy przedstawia rysunek poniżej :
  416.  
  417. 11_1.jpeg
  418.  
  419. Obydwa wykresy skrzynkowe dotyczą rozkładów asymetrycznych, ponieważ mediana jest przesunięta względem wartości średniej. Z lewej strony mamy przykład rozkładu lewostronnego, a z prawej prawostronnego.
  420.  
  421. Ćwiczenie 19
  422. Za pomocą kreatora wyświetlić skrzynkowe wykresy średniej sprzedaży aut (sales) ze względu na typ auta (type). Określić symetrię rozkładu zmiennej opisującej typ auta(type). Skonkludować wszystkie wartości
  423. znajdujące się na wykresie z danymi ilościowymi (skośność, mediana, kwartyle, wartości odstające i skrajne). Określić asymetrię rozkładów.
  424.  
  425. 12 ) Histogram
  426.  
  427. Wykres typu histogrma jest kolejnym rodzajem wykresu prezentującego rozkład badanej cechy/zmiennej. Prosta forma histogramu dostępna jest w kategorii wykresów tradycyjnych. Jeżeli natomiast użytkownik chce
  428. ingerować w sposób generowania histogramu np. w ilość i szerokość przedziałów klasowych, należy skorzystać z kreatora wykresów.
  429.  
  430. Przy pomocy histogramu możliwa jest analiza parametrów rozkładu (skośność, kurtoza) i rozproszenie zmiennej, jak również jego modulaność.
  431.  
  432. Dodatkową funkcją jest możliwość wykreślenia krzywej normalnej, na podstawie obliczonych parametrów(średniej i odchylenia standardowego badanej zmiennej).
  433.  
  434. 12.1 ) Histogram - ćwiczenia
  435.  
  436. Ćwiczenie 20
  437. Wykonać histogram zmiennej acceler z naniesioną krzywą gęstości rozkładu normalnego.
  438.  
  439. Ćwiczenie 21
  440. Wykonać histogram zmiennej acceler z naniesioną krzywą normalną rozkładu. Histogram ma przedstawić procentowy udział każdej z klas szergu rozdzielczego. Ograniczyć liczbę klas wg. reguły sqrt(n) gdzie n to
  441. liczba obserwacji, a szerokość klas pozostawić automatyczną. Zgrupować histogram wzgledem miejsca produkcji (region).
  442.  
  443. Wykresy --> Wykresy tradycyjne --> Rozrzutu/Punktowe
  444.  
  445. Za pomocą tego narzędzia, można przedstawić, czy wartości jednej cechy/zmiennej rozkładają się względem innej (innych) cechy/zmiennej.
  446.  
  447. Jest to jakościowy odpowiednik testu korelacynego dla par zmiennych.
  448.  
  449. W tym wypadku kształt wykresu decyduje o występowaniu zależności. Im kształt jest bardziej zbliżony do eliptycznego (pochylonego w prawo lub lewo ) tym ta zależność jest większa.
  450.  
  451. Przy czym ważne jest, aby analizowany zbiór danych zawierał dużą liczbę obserwacji (zmienne ilościowe).
  452.  
  453. Ćwiczenie 22
  454. Ocenić czy występuje zależność pomiędzy przyspieszeniem (acceler), a pojemnością skokową (power) samochodów?
  455.  
  456. Ćwiczenie 23
  457. Jak rozkłada się według miejsca produkcji: moc silnika, zużycie paliwa, masa samochodu?
  458.  
  459. 13 ) Dopasowanie i interpolacje
  460.  
  461. 12.jpeg
  462.  
  463. Dopasowanie i interpolacje wykonuje się na etapie gdy mamy już stworzony wykres - czyli w oknie raportu.
  464.  
  465. Ćwiczenie 24
  466. Dopasować prostą metodą regresji liniowej do wykresu zależności zmiennej zużycia paliwa (gas_100) od mocy silnika(power).
  467.  
  468. Ćwiczenie 25
  469. Zinterpolować dane metodą prostej i splinów (krzywe sklejania) dla wykresu liniowego zmiennej rocznik (prodyear).
  470.  
  471. 14 ) Wykres K-K (kwantyl-kwantyl)
  472.  
  473. Analiza --> Opis statystyczny --> Wykres K-K
  474.  
  475. Wykreśla kwantyle rozkładu zmiennej względem kwantyli teoretycznych. Jeśli zmienna odpowiada rozkładowi testowanemu, to punkty skupiają się przy lini prostej.
  476.  
  477. 13.jpeg
  478.  
  479. Wykresy K-K z trendem. Na osi odciętych (OX) przedstawiane są rzeczywiste wartości kwantyli analizowanej zmiennej, natomiast oś rzędnych (OY) przedstawia hipotetyczne kwantyle odwrotnej, skumulowanej funkcji
  480. gęstości wybranego rozkładu.
  481.  
  482. 13_1.jpeg
  483.  
  484. Odstępstwa nie powinny przekraczać odległości +- 3 sigma (takie o z kreską do tylu) co w prosty sposób można określić patrząc na oś OY wykresu, która to przedstawia właśnie mnożnik sigma.
  485.  
  486. 15 ) Wykres P-P (prawdopodobieństwo-prawdopodobieństwo)
  487.  
  488. Analiza --> Opis statystyczny --> Wykresy P-P
  489.  
  490. Podobne do poprzedniego narzędzie określające rozkład zmiennej. W przypadku wykresów P-P porównania są empiryczne i teoretyczne dystrybuanty rozkładu badnej zmiennej.
  491.  
  492. Obydwa typy wykresów czułe sa na wartości skrajne i odstające, dlatego ważne jest, aby w przypadku danych o małej liczbie obserwacji pozbyć się ich przed przystąpieniem do
  493.  
  494. Ćwiczenie 26
  495. Korzystając z wykresów P-P i K-K ocenić, które spośród zmiennych: poejmność skokowa, moc silnika, masa samochodu, najlepiej podlega rozkładowi normalnemu. Porównać wyniki z wykresami histogramów.
  496.  
  497. Ćwiczenie 27
  498. Które spośród rozkładów dostępnych w wykresach P-P, K-K najlepiej opisuje rozkład zmiennej zużycie paliwa na 100 km.
  499.  
  500. Ćwiczenie 28
  501. Wygenerować zmienną o wybranym rozkładzie i przetestować ją pod kątem wskazanego rozkładu.
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement