Advertisement
Not a member of Pastebin yet?
Sign Up,
it unlocks many cool features!
- SPSS 3
- 1 ) Wstęp i progrma zajęć :
- * Analiza danych - opis statystyczny
- # Raport wyników
- # Statystyki opisowe
- # Częstości
- # Eksploracje
- # Tabele krzyżowe
- * Podzial danych na podzbiory
- * Warunkowy wybór obserwacji
- * Graficzne przedstawienie danych dla różnych typów zmiennych
- 2 ) Okno raportu
- 1.jpeg
- Wyniki przeprowadzonych analiz przy pomocy różnych narzędzi SPSS wyświetlane są w osobnym oknie jako raport.
- * Okno raportu składa się z dwóch części:
- # Okna obiektów o drzewiastej strukturze (po lewej stronie)
- # Okna właściwych wyników (po prawej stronie)
- * Drzewiasta struktura ma za zadanie szybkie przełączanie i wyświetlanie określonych partii wyników, bez potrzeby przewijania długich stron,
- często dużej ilości zbędnych informacji.
- * Pojedyncze obiekty raportu, ale również ich grupy można kopiować, przenosić, usuwać, zarówno w głównym oknie wyników, jak i w powiązanym z nim
- oknie obiektów.
- * Każdy element raportu można edytować.
- * Edycję zaznaczonego elementu aktywuje się dwukrotnym kliknięciem na nim (obiekt zostanie otoczony przerywaną linią), a następnie poprzez
- wybrane opcje menu kontekstowego (wywołany prawym klawiszem myszki) dokonuje się zmian bądź poprzez Edycję zawartości --> W oknie raportu.
- W osobnym oknie - wywołanie prawym klawiszem myszy.
- Bezpośrednio z okna raportu wyniki (obiekty składowe raportu) można eksportować do innych formatów: pdf, doc, xls etc. Jest przy tym rzeczą wyboru,
- czy eksportowane będą wszystkie obiekty całego raportu, aktualnie widoczne na ekranie, czy tylko wybrane (zaznaczone) elementy.
- 3 ) Statystki opisowe
- 2.jpeg
- Analiza --> Opis Statystyczny --> Statystyki opisowe
- Narzędzie pozwala na :
- * określenie miar tendencji centralnej (położenia rozkładu): średnia, suma
- * określenia miar rozproszenia (zróżnicowania rozkładu): odchylenie std, wariancja, rozstęp, minimum, maksimum, błąd standardowej średniej
- * określenie miar koncentracji i asymetrii rozkładu: spłaszczenie - kurtoza, skosność
- * wyliczenie wartości standaryzowanych dla zmiennych wejściowych
- * zmianę porządku wyświetlania wg, listy zmiennych, alfabetycznie ,wg średniej
- 3.1 ) Statystki opisowe - raport
- W oknie raportu wyniki analiz przedstawiane są w formie tabeli :
- 2_1.jpeg
- * Pierwsza kolumna: etykiety/ nazwy zmiennych
- * Druga kolumna: liczba ważnych obserwacji
- * Trzecia, czwarta, piąta ...zależnie od zaznaczonych opcji, obliczane statystki
- * Kolejne wiersze oznaczają wybrane zmienne
- 3.2 ) Statystki opisower - ćwiczenia
- Ćwiczenie 1
- Obliczyć miary tendencji centralnej i jednocześnie dokonać standaryzacji analizowanych zmiennych typu ilościowego. Usunąć z raportu zbędne obiekty -
- pozostawić tylko tabelę obliczonych wartości. Porównać wartości wybranej zestandaryzowanej zmiennej z wartościami obliczonymi z wykorzystaniem
- narzędzia, obliczanie wartości zmiennej
- Ćwiczenie 2
- Określić koncentrację i asymetrię rozkładu, a także rozproszenie względem średniej dla zmiennych prevexp i salary. Kolejność wyników wyświetlić rosnąco
- względem średniej.
- Wartość 0(zero) współczynnika skośności określa rozkład symetryczny badanej cechy. W praktyce przyjmuje się ,żę gdy współczynnik jest mniejszy od 0.5
- rozkład badanej cechy jest symetryczny natomiast gdy jest on większy od 1 rozkład jest mocno skośny. Ujemne wartośći określają rozkłady lewostronnie
- asymetryczne (wydłużone lewe ramię rozkładu), a wartości dodatnie o asymetrii prawostronnej (długie prawie ramię rozkładu).
- Ze względu na spłaszczenie - kurtozę, wyróżnia się rozkłady:
- mezokurtyczne - wartość współczynnika wynosi 0 (spłaszczenie jest jak dla rozkładu normalnego)
- leptokurtyczne - wartość współczynnika dodatnia oznacza, że wartości badanej cechy posiadają większą koncentrację niż przy rozkładzie normalnym
- (strzelisty wykres rozkładu funkcji prawdopodobieństwa)
- platokurtyczne - wartość współczynnika jest ujemna - mniejsza koncentracja niż przy rozkładzie normalnym (płaski wykres rozkładu funkcji prawdopodobieństwa)
- 4 ) Częstości
- Analiza --> Opis statystyczny --> Częstości
- 3.jpeg
- Narzędzie pozwala na :
- * - wyznaczanie tabel częstości obserwacji dla wybranych zmiennych
- * - organizację wyników: porównanie lub podział zmiennych
- * - wyznaczanie miar tendencji centralnej
- * - wyznaczanie miar rozproszenia
- * - wyznaczanie parametrów rozkładów
- * - wyznaczanie wartości percentyli
- * - tworzenie wykresów zarówno dla zmiennych ilościowych jak i jakościowych
- * - formatowanie wyników np w zależności od ilości kategorii zmiennych
- 3_1.jpeg
- Pierwsza tabela stanowi uzupełnienie. Wyświetla ona informacje według wybranych opcji. Jeżeli nie zaznaczymy żadnej z opcji to wyświetlona zostanie tylko
- liczebność próbki i braków danych (jakie mogą w niej występować).
- Kolumny reprezentują zmienne dla których w wierszach obliczone są wybrane statystki.
- 3_2.jpeg
- W zależności od ilości wybranych zmiennych, wyświetlona zostanie odpowiednia ilość tabel. Każda z tablic posiada jednakową liczbę kolumn.
- * - pierwszą kolumnę stanowią etykity wartości zmiennej (stąd wyznaczanie częstości dla zmiennych ilościowych [ogromna ilość kategorii] nie ma sensu)
- * - druga kolumna : liczebność poszczególnych kategorii
- * - trzecia kolumna : procentowy udział poszczególnych kategroii (względem całości)
- * - czwarta kolumna : procentowy udział poszczególnych kategorii ważnych wartośći ( po odrzuceniu braków danych)
- * - piąta kolumna : suma udziałów procentowych aktualnej i poprzednich kategorii
- * - wiersze stanowią kategorie zmiennej, przy czym ostatni jest ostatni prezentuje liczbę wszystkich rekordów
- 4.2 ) Częstości - ćwiczenia
- Ćwiczenie 3
- Która grupa respondentów, ze względu na miesiąc urodzenia jest najliczniejsza? Jaki procent respondentów stanowi grupa urodzona w dwóch pierwszych kwartałach
- roku?
- Ćwiczene 4
- Wyznaczyć tablice częstości i jednocześnie wszystkie miary rozproszoności, tendencji centralnej oraz wartości percentyli dla zmiennyhc: jobcat, minority, prevexp.
- Sformatować raport rosnąco według wartości, uwzględnić, że zmienna prevexp jest typu ilościowego i nie warto wyświetlać dla niej pełnej tablicy częstości -
- ograniczyć się do liczniejszej w kategorie spośród pozostałych dwóch zmiennych.
- 5 ) Ekspolaracja
- Procedura Ekploracja pozwala na utworzenie statystki podsumowującej oraz graficzną raprezentację danych dla wszystkich obserwacji, albo oddzielnie dla grup
- obserwacji.
- Istnieje wiele powodów ,dla których warto używać procdery Ekploracja:
- * klasyfikowania danych
- * identyfikacja wartości odstających
- * sprawdzanie założeń oraz charakteryzowanie różnic pomiędzy kategoriami( grupami obserwacji)
- Klasyfikowania danych może wykazać obceność wartości niezwykłych, wartości skrajnych, luk w danych lub innych osobliwości.
- Eksploracja danych może być pomocna w ustaleniu, czy techniki statystyczne, których użytkownik ma zamiar użyć w celu analizy danych są odpowiednie. Ekspolaracja
- może wykazać ,że należy przekształcić dane, jeśli technika wymaga rozkładu normalnego. Użytkownik może też zdecydować się na zastosowanie testów nieparametrycznych :
- Analiza --> Opis statystyczny --> Ekspolaracja
- 4.jpeg
- * - wybieramy conajmniej jedną zmienną typu ilościowego --> Zmienne zależne
- * - opcjonalnie wybieramy :
- # - co najmniej jeden czynnik, którego wartości zdefiniuje grupy obserwacji (zmienne kategoryzująca) --> Listy czynników
- # - zmienną identyfikacyjną do opisu obserwacji
- * - wybieramy przycisk statystki
- # - statystki opisowe : pomiary tendencji, centralnej i rozproszenia itp. Wyświetlony jest również 95 % poziom przedziału ufności dla średniej
- # - M-estymatory : mocne alternatywy dla przykładowej średniej i mediany do oszacowania środka położenia. Obliczone estymatory różnią się wagami, które stosują do
- obserwacji. Wyświetlane są : estymator M Hubera, estymator fali Andrewsa, estymator M Hampela oraz estymator dwuwagi Tukeya.
- # - wartości skrajne : umożliwia wyświetlenie pięciu wartości najwiekszych i pięciu najmniejszych wraz z etykietami obserwacji
- # - percentyle : umożliwia wyświetlanie wartości dla 2., 10., 25., 50., 75. i 95 percentyla
- 5.1 ) Ekspolaracja - ćwiczenia
- Ćwiczenie 5
- Za pomocą Ekspolarcji sprawdzić ile średnio respondenci spędzają godzin przed telewizorem (tvhours) w zależności od poziomu wykształcenia. (degree)
- Ćwiczenie 6
- Za pomocą Eksploracji dokonać analizy zmiennej wiek respondenta (age) ze względu na płeć (sex).
- Określić :
- a ) liczby analizowanych przypadków
- b ) średnią wieku : porównać ją z wartościami mocnych estymatorów
- c ) którzy respondenci (numer obserwacji) żyli najdłużej, najkrócej
- Ćwiczenie 7
- Za pomocą Eksploracji określić wartość środkową zarobków (salary) ze względu na płeć (gender), wykształcenie(college). Czy możliwe jest określenie mediany zarobków ze
- względu na płeć dla zdefinowanych w zbiorze grup wykształcenia ?
- 6 ) Tabele krzyżowe
- Tabele krzyżowe(tabele kontyngencji) są popularnym i prostym narzędziem służacym do badania zależności pomiędzy zmiennymi o niskiej liczbie kategorii. Możliwe jest
- przedstawienie informacji, w jaki sposób kategorie(wartości) jednej zmiennej rozkładają się w kategoriach(wartościach) innej zmiennej, a więc prezentowane są wszystkie
- możliwe zależności ( chodzi o zależności poszczególnych wartości zmiennych - kategorii ) pomiędzy nimi.
- Analiza --> Opis statystyczny --> Tabele krzyżowe
- 5.jpeg
- * Zmienne w wierszach i kolumnach to zmienne między którymi odsetek/liczbę obserwacji chcemy sprawdzić.
- * Warstwa zwiększa wymiar tabeli o kolejne kategorie. Dodanie jednej warstwy złożonej z dwóch wartości rozdzieli zależność pomiędzy zmiennymi w wierszu i kolumnie na dwie
- tabele(tyle ile jest w jednej warstwie kategorii ). Dodanie dwóch lub więcej warstw spowoduje wyświetlenie zależności w jednej tabeli, kolejno ze względu na zmienne
- warstwujące.
- 5_1.jpeg
- * Kolejność zmiennych: wiersz, kolumna nie ma znaczenia. W celu zwiększenia wyników, zaleca się umieszczanie zmiennych o mniejszej liczbie kategorii w kolumnach.
- * Opcja Komórki pozawala na łączny, lub rozłączny wybór sposobu prezentacji wartości. Na ogół we wstępnych analizach korzysta się z liczebnoci: obserwowanych, oczekiwane
- oraz procentów wyświetlanych dla wierszy, kolmn, ogółu.
- * Narzędzie nie tylko pozwala na okreśelenie liczebności obeserowowanych(empirycznych), ale również na wyznaczenie wartości oczekiwanych(teoretycznych), które przy założeniu
- niezależności zmiennych wynikają z iloczynów rozkładów brzegowych.
- * Opcje dotyczące statystyk omówione zostaną przy temacie korelacji i ilościowego wyznacznia miar siły związku/zależności zmiennych dyskretnych otrzymywanych przy pomocy testów
- statystycznych.
- * Pole reszty dotyczy wyznaczania różnic pomiędzy liczebnościami zaobserwowanymi i oczekiwanymi: niestandaryzowane(różnica obydwu liczebności), standaryzowane(różnica podzielona
- przez odchylenie std. tych różnic), skorygowane standaryzowane(różnica podzielona przez swój błąd standardowy)
- 5_2.jpeg
- Jako przykład zastosowania tabel krzyżowych chcemy sprawdzić:
- * jaki odsetek kobiet i mężczyzn posiada poziom wykształcenia high school?
- * jaki procent wszystkich badanych osób danej płci stanowią respondenci, którzy uzyskali bachelor?
- * jaki odsetek mężczyzn uzyskało gradute w stosunku do innych poziomów wyształcenia?
- Po dodaniu do wiersza zmiennej płeć i do kolumny wykształcenie otrzymujemy :
- * procent z wiersza : określa procentową wartość, jaką stanowi liczebność danej komórki w stosunku do liczby obserwacji wszystkich kategorii zmiennej umieszczonej w polu Zmienne w
- wierszach. W tym przypadku określa, jaki procent wszystkich respondentów tej samej płci stanowia osoby o różnych poziomach wyształcenia: np. najwiekszy odsetek 55.7% badanej próby
- stanowią kobiety z wykształceniem high school, a najmniejszy 5.4% graduate.
- * odsetek z kolumny : określa procentową wartość, jaką stanowi liczebność danej komórki w stosunku do liczby obserwacji wszystkich kategorii zmiennej umieszczonej w polu Zmienne w kolumnach.
- W tym przypadku określa, jaki procent osób z każdej kategorii określajacej poziom wykształcenia stanowią respondenci danej płci, np. mężczyźni stanowią tylko 39 % wszystkich respondentów z
- wykształceniem high school.
- * odsetek ogółem : określa procentową wartość, jaką stanowi liczebność danej komórki w stosunku do liczebności całej badanej próby: np - osoby ze stopniem bachelor stanowią 15.6% badnej próby,
- z czego kobiety stanowią 7.2%, a mężczyźni 8.4%
- 5.1 )
- Ćwiczenie 8
- Sprawdzić jaki odsetek wśród kobiet stanowią wdowy. Jaka jest różnica dla kobiet i mężczyzn w tej kategorii stanu cywilnego? Jaki procent ogółu stanowi grupa osób rozwiedzonych? Jaka jest liczba
- wszystkich kobiet bedących w zwiazku, a jaka wszystkich kobiet biorących udział w ankiecie?
- Ćwiczenie 9
- Która kategoria wiekowa (agecat4) przejawia największe upodobanie do muzyki country, western(country) wśród tych, którzy lubią ten gatunek muzyki. Jaki odsetek stanowią kobiety, a jaki mężczyźni
- (sex). W której kategorii wiekowej występuje największy odsetek mężczyzn bardzo lubiących ten gatunek muzyki? Jaki procent stanowią respondenci z przedziału wiekowego 40-49 lat, którzy zdecydowanie
- nie lubią tego gatunku muzyki?
- Ćwiczenie 10
- Jak zmienią się wyniki z poprzedniego zadania, jeżeli grupa osób na pytanie "czy lubisz muzykę coutnry" odpowiedziała "Nie wiem" połączmy z grupą która odpowiedziała "Zdecydowanie nie lubię"? Co
- należy uprzednio wykonać na danych, aby można było użyć tabel krzyżowych dla podanego przykładu ?
- 6 ) Podział danych na podzbiory
- Cały zbiór danych można analizować ze względu na określoną cechę/zmienną, jedną lub kilka. Oczywiście zmienna dyskretna w kategoriach której przeprowadzana będzie analiza nie powinna być zmienną
- ilościową , a więc powinna charakteryzować się wysoką częstością posiadanych wartośći.
- Dane --> Podziel dane na podzbiory
- 6.jpeg
- W zależności od tego w jaki sposób mają być zestawione wyniki, należy wybrać właściwą opcję podziału danych w wywołanym oknie dialogowym.
- * Porównaj grupy - w oknie raportu wszystkie poszczególne wyniki analiz będą przedstawiane łącznie dla kategorii zmiennej dzielącej (jedna tabela wyników) tak, aby łatwe było porównanie, jak
- okreslona cecha zmienia się w kategoriach zmiennej grupującej.
- * Przedsaw wyniki w podziale na grupy - wszystkie wyniki analiz zostaną przedstawione rozłącznie w podzielone na tyl wyników składowych ile liczy zmienna dzieląca zbiór.
- Podział danych sygnalizowany jest w pasku stanu okna głównego programu. Należy pamiętać, aby usunąć podział kiedy nie jest on już potrzebny.
- 6.1 ) Podział danych na podzbiory - ćwiczenia
- Ćwiczenie 11
- Obliczyć ile średnio zarabiają kobiety i mężczyźni (gender) w każdej z grup pracowniczych (jobcat). Przedstawić dane w porównaniu na grupy i w podziale na grupy.
- Ćwiczene 12
- Określić średni wiek zawarcia pierwszego małżeństwa (agewed) ze względu na płeć (sex), rasę (race), poziom wykształcenia(degree) i region zamieszkania(region) respondenta.
- 7 ) Warunkowy wybór obserwacji
- Poddawane analizie dane można filtrować, czyli nie wszystkie obserwacje muszą być analizowane. Kryterium obiera użytkownik, wedle własnych potrzeb.
- 7.jpeg
- Dane --> Wybieranie obserwacji
- * według warunku narzuconego na zmienną(e)
- * próbka pobierana jest losowo ze zbioru
- * z zaznaczonego zakresu obserwacji
- * poprzez jedną zmienną kategoryzującą
- Dane filtrowane są na podstawie zmiennej dychtomicznej $filter tworzonej w oparciu o zdefinowany warunek.
- Wprowadzony filtr danych jest aktywny do momentu anulowania w analogiczny sposób w jaki został włączony, a informacja wyświetlana jest w pasku stanu: Filtr włączony.
- Obserwacje można równiez wybierać w każdym oknie dialogowym, które taką opcję posiada:
- 7_1.jpeg
- Z tym ,że jeżeli dokonamy warunkowego zaznaczenia obserwacji w zakresie danego okna dialogowego, to wybór będzie aktywny lokalnie, tzn ,że jeżeli przejdziemy do innego okna w celu wykonania innej
- analizy to warunki wyboru wartości zmiennych nie będą już aktywne.
- Przykładem takiego okna jest Oblicz wartośći w menu Przekształcenia.
- 7.1 ) Warunkowy wybór obserwacji - ćwiczenia
- Ćwiczenie 13
- Ile osób, które ukończyły college(degree2) i są obecnie w stanie wolnym(martial) jest spod znaku (zodiac) barana lub lwa. Ile jest takich kobiet, a ile mężczyzn? W którym regionie (region4) jest
- najwięcej takich osób?
- Ćwiczenie 14
- W jakim średnio wieku respodnenci zawierali pierwsze małżenstwo(agewed), mieszkający (xnorcsiz) na przedmieściach dużego miasta, lub w miastach większych niż 250tys, mający co najmniej dwójkę
- rodzeństwa (sibs), których dochód miesięczny(rincom91) wynosił od 8 do 15 tys dolarów. Ilu było takich respondentów w zależności od wieku? Ile było takich kobiet, a ilu mężczyzn?
- 8 ) Graficzna prezentacja danych
- 8.jpeg
- Dobór metody graficznej prezentacji danych zależy od rodzaju zmiennej.
- Inaczej postępujemy ze zmiennymi ilościowymi(duża ilość kategorii), a inaczej z nominalnymi/porządkowymi(wysoka częstość występowania poszczególnych wartości, przy niskiej ilości kategorii)
- A - tego rodzaju wykresy stosuje się przeważnie do wizualizacji zmiennych dyskretnych o niskiej ilości kategorii
- B - tego rodzaju wykresy przeznaczone sa do prezentacji zmiennych ilościowych
- Oczywiście nie są to bezwzględne reguły ze względu na poziom pomiaru zmiennej, program nie zaprotestuje jeżeli dodana zostanie zmienna innego typu.
- 9 ) Wykresy (ogólnie)
- W zależności jak chcemy przedstawić dane, czy interesuje nas kategorie danej zmiennej (A) czy istnieje potrzeba graficznego zestawienia określonych statystyk między zmiennych (B), albo po prostu
- chcemy zaprezentować wartości kolejnych obserwacji (C), zaznaczamy odpowiednie pole.
- Pole to znajduje się w pierwszym oknie dialogowym pojawiającym się zaraz po wybraniu interesującego nas typu wykresu np: Wykresy --> Wykresy tradycyjny --> Słupkowy
- 9.jpeg
- W zależności od od tego w jaki sposób chcemy przedstawić wartości zmiennych na wykresie, wybieramy typ wykresu:
- * prosty
- * zgrupowany
- * zestawiony
- i określamy w jaki sposób mają być przedstawiane dane na wykresach:
- * opisy dla grup obserwacji
- * podsumowanie oddzielonych zmiennych
- * wartości poszczególnych zmiennych
- A. W przypadku przedstawiania danych na wykresach, jako: opisy dla grup obserwacji mamy następujące typy wykresów :
- * Prosty - najczęściej używa się dla wyświetlania liczebności, procentu obserwacji jdenej zmiennej (nominalenj, porządkowej - o niskiej liczbie kategorii), dodanej do pola: Oś kategorii. Można
- również w kategoriach zmiennej zdefinowanej, jako oś kategorii wyświetlać statystki opisowej dowolnej innej zmiennej (również ilościowych), np. średni wiek respondentów (zmienna ilościowa) ze
- względu na płęć (nominalna)
- Jeżeli chcemy przedstawić opisane poprzednio cechy ze względu na kolejne zmienne (ich kategorie), to zmienne te nalży dodac do panelu Wiersze(jeżeli wykresy mają być przedstawione jeden obok
- drugiego), lub Kolumny (jeżeli wykresy mają być przedstawione jedne pod drugim).
- * Zgrupowany - ten typ wykresu wybieramy, jeżeli chcemy porównać kategorie jednej zmiennej (pole: oś kategorii) w grupach innej zmiennej (pole: definiuj zestawienia przez) - obdywie zmienne
- powinny posiadać niską liczbę kategorii/grup) - podobnie jak poprzednio możemy wyznaczać ilość, procent w poszczególnych grupach obserwacji, ale również statystki opisowe ze względu na dowolną
- zmienną ilościową, np. jakie są średnie zarobki respondentów ze względu na płeć w poszczególnych regionach kraju.
- * Zestawiony - w przypadku tego typu prezentacji danych zmienne przedstawiane są podobnie, jak dla typu wykresu zgrupowanego z tym, że poszczególne kategorie zmiennej określone polem definiuj
- zestawienia przez prezentowane są nie obok siebie, ale w sposób skumulowany w jednej kolumnie.
- B. Dla danych na wykresach przedstawionych, jako: podsumowanie oddzielonych zmiennych w zależności jaki typ wykresu wybierzemy: prost, zgrupowany, zestawiony możliwe jest wyznaczenie funkcji
- statystycznych jednej, lub kilku zmiennych - oś wartości OY przypisywana jest pierwszej wybranej zmiennej, dlatego należy pamiętać ,że ten sposób przedstawiania danych dotyczy zmiennych
- reprezentujących tą samą wielkość np. średni przychód respondenta w kolejnych kwartałach.
- C. W przypadku ostatniego rodzaju przedstawianie danych na wykresach, jako : wartości poszczególnych zmiennych, wyświetlane sa kolejne wartości obserwacji. Sortowanie obserwacji ma tutaj decydujący
- wpływ na wygląd generowanego wykresu.
- 10 ) Wykresy słupkowe
- Wykresy --> Wykresy tradycyjne --> Słupkowy --> Prosty, Opisy dla grup..
- Tworzy wykres opisujący kategorie pojedynczej zmiennej. Wysokość słupka reprezentuje liczebność/procent kategorii zmiennej zdefiniowanej w polu oś kategorii, bądź funkcję wybranej zmiennej, którą
- można wybrać po zaznaczeniu opcji inna statystyka opisowa.
- 10.jpeg
- Zaznacz zmienną, której kategorię mają być wyznaczone na osi OX wykresu i przenieś ją w pole Oś kategorii.
- Zaznacz jedną z możliwości w polu Słupki przedstawiają, aby określić wartość jakiej wielkości (ewentualnie funkcja jakiej zmiennej) będzie wyświetlona na osi OY wykresu.
- Jeżeli oś wartości ma przedstawiać funckję innej zmiennej opisowej, zaznacz opcję Inna funkcja statystyczna (np. średnia), a następnie wybierz zmienną numeryczną, która ma zostać scharakteryzowana w
- kategoriach zmiennych zdefiniowanej w polu oś kategorii. Aby zmienić funkcję opisową, kliknij przycisk Zmień funkcję statystyczną.
- Opcjonalnie do pola wiersza, kolumny dodaj kolejne zmienne, ze względu na kategorie których wyświetlone mają być dane.
- 10. 1 ) Wykresy słupkowe - ćwiczenia
- Ćwiczenie 15
- Przedstawić na wykresie słupkowym dominantę wieku respondentów w zależności od regionu zamieszkania.
- Ćwiczenie 16
- a ) Przedstawić na wykresie słupkowym liczbę respondentów zmiennej region, w podziale na płeć, jako dwa oddzielne wykresy w wierszu
- b ) Przedstawić dane tak, aby liczby respondentów każdego regionu były zgrupowane według płci w obszarze jednego wykresu.
- c ) Zmodyfikować wykres z punktu b ) w ten sposób, aby słupki zawierały informacje o procentowamy udziale kategorii zmiennej.
- 11 ) Wykresy kołowe
- Wykresy --> Wykresy tradycyjne --> Kołowy --> Opisy dla grup obserwacji
- Tworzy wykres opisujący kategorie pojedynczej zmiennej.
- Zaznacz zmienną i przenieś ją w pole Podziel według. Zmienna może być numeryczna, tekstowa lub długa tekstwoa.
- Dla każdej kategorii zmiennej wycinka generowany jest jeden wycinek koła.
- Zaznacz jedną z możliwości w grupie Wycinki przedstawiają, aby określić sposób przedstawienia danych na wycinkach wykresu kołowego.
- Aby wyświetlić sumę wartości zmiennej, zaznacz opcję Podsumowanie zmiennej, a następnie zaznacz zmienną i przenieś ją w pole Zmienna. Zmienna ta musi być numeryczna.
- 11.1 ) Wykresy kołowe - ćwiczenia
- Ćwiczenie 17
- Przedstawić na wykresie kołowym procent respondentów zamieszkujących dany region kraju. Zmodyfikować wykres tak, aby na każdym wycinku widniała odpowiedająca mu wartość numeryczna procentowego udziału.
- Ćwiczenie 18
- Przedstawić na wykresie kołowym sumę wartości zmiennej płeć, respondentów zamieszkujących dany region kraju. Zmodyfkiować wykres tak, aby wyświetlane były wartości liczowe sumowanej zmiennej. Zmienić
- efekt wyświetlania wykresu na "3-wymiarowy".
- 12 ) Kreator wykresów
- Wykresy --> Kreator wykresów
- Dzięki kreatorowi wykresów można tworzyć wykresy ze wstępnie zdefiniowanej galerii lub budować je z poszczególnych części (np. osi i słupków). Wykresy buduje się poprzez przeciąganie i upuszczanie
- wykresów galerii lub części podstawowych do obszaru roboczego znajdującego się w oknie dialogowym kreatora po prawej stronie Listy zmiennych.
- Za pomocą Kreatora wykresów można nieco szybciej generować wykresy, jednocześnie oferuje on szereg funkcji niedostępnych w przypadku wykresów tradycyjnyc.
- Wykres skrzynkowy(pudełkowy/skrzynka z wąsami) stosowany jest do przedstawiania rozkładu uporządkowanych wartości cechy. W szybki sposób, mozna analizować rozproszenie oraz typ skośności rozkładu cechy/
- zmiennej.
- 11.jpeg
- Na podstawie wykresu skrzynkowego możemy określić :
- * położenie wartości środkowej - mediany
- * wartość kwartyli (I i III)
- * położenie wartości zmiennej, które nie odstają od miar tendencji centralnej
- * wartości skrajnych i nietypowych
- Wysokość pudełka to wartość rozstępu międzykwartylowego (I i III) - ćwiartkowego. Obszar pudełka zawiera 50 % wartości zmiennej/ cechy. Wąsy określają najniższe i najwyższe wartości nie odstające -
- znajdujące się w odległości nie większej niż 1.5 długości srzynki. Kółka to obserwacje, które mają wartości większe od 1.5 do 3 długości skrzynki od jej górnej lub dolnej krawędzi, a gwiazdka powyżej 3.
- Pozioma kreska wewnątrz pudełka to mediana.
- Wnioskowanie o typie skośności rozkładu w oparciu o wykres skrzynkowy przedstawia rysunek poniżej :
- 11_1.jpeg
- Obydwa wykresy skrzynkowe dotyczą rozkładów asymetrycznych, ponieważ mediana jest przesunięta względem wartości średniej. Z lewej strony mamy przykład rozkładu lewostronnego, a z prawej prawostronnego.
- Ćwiczenie 19
- Za pomocą kreatora wyświetlić skrzynkowe wykresy średniej sprzedaży aut (sales) ze względu na typ auta (type). Określić symetrię rozkładu zmiennej opisującej typ auta(type). Skonkludować wszystkie wartości
- znajdujące się na wykresie z danymi ilościowymi (skośność, mediana, kwartyle, wartości odstające i skrajne). Określić asymetrię rozkładów.
- 12 ) Histogram
- Wykres typu histogrma jest kolejnym rodzajem wykresu prezentującego rozkład badanej cechy/zmiennej. Prosta forma histogramu dostępna jest w kategorii wykresów tradycyjnych. Jeżeli natomiast użytkownik chce
- ingerować w sposób generowania histogramu np. w ilość i szerokość przedziałów klasowych, należy skorzystać z kreatora wykresów.
- Przy pomocy histogramu możliwa jest analiza parametrów rozkładu (skośność, kurtoza) i rozproszenie zmiennej, jak również jego modulaność.
- Dodatkową funkcją jest możliwość wykreślenia krzywej normalnej, na podstawie obliczonych parametrów(średniej i odchylenia standardowego badanej zmiennej).
- 12.1 ) Histogram - ćwiczenia
- Ćwiczenie 20
- Wykonać histogram zmiennej acceler z naniesioną krzywą gęstości rozkładu normalnego.
- Ćwiczenie 21
- Wykonać histogram zmiennej acceler z naniesioną krzywą normalną rozkładu. Histogram ma przedstawić procentowy udział każdej z klas szergu rozdzielczego. Ograniczyć liczbę klas wg. reguły sqrt(n) gdzie n to
- liczba obserwacji, a szerokość klas pozostawić automatyczną. Zgrupować histogram wzgledem miejsca produkcji (region).
- Wykresy --> Wykresy tradycyjne --> Rozrzutu/Punktowe
- Za pomocą tego narzędzia, można przedstawić, czy wartości jednej cechy/zmiennej rozkładają się względem innej (innych) cechy/zmiennej.
- Jest to jakościowy odpowiednik testu korelacynego dla par zmiennych.
- W tym wypadku kształt wykresu decyduje o występowaniu zależności. Im kształt jest bardziej zbliżony do eliptycznego (pochylonego w prawo lub lewo ) tym ta zależność jest większa.
- Przy czym ważne jest, aby analizowany zbiór danych zawierał dużą liczbę obserwacji (zmienne ilościowe).
- Ćwiczenie 22
- Ocenić czy występuje zależność pomiędzy przyspieszeniem (acceler), a pojemnością skokową (power) samochodów?
- Ćwiczenie 23
- Jak rozkłada się według miejsca produkcji: moc silnika, zużycie paliwa, masa samochodu?
- 13 ) Dopasowanie i interpolacje
- 12.jpeg
- Dopasowanie i interpolacje wykonuje się na etapie gdy mamy już stworzony wykres - czyli w oknie raportu.
- Ćwiczenie 24
- Dopasować prostą metodą regresji liniowej do wykresu zależności zmiennej zużycia paliwa (gas_100) od mocy silnika(power).
- Ćwiczenie 25
- Zinterpolować dane metodą prostej i splinów (krzywe sklejania) dla wykresu liniowego zmiennej rocznik (prodyear).
- 14 ) Wykres K-K (kwantyl-kwantyl)
- Analiza --> Opis statystyczny --> Wykres K-K
- Wykreśla kwantyle rozkładu zmiennej względem kwantyli teoretycznych. Jeśli zmienna odpowiada rozkładowi testowanemu, to punkty skupiają się przy lini prostej.
- 13.jpeg
- Wykresy K-K z trendem. Na osi odciętych (OX) przedstawiane są rzeczywiste wartości kwantyli analizowanej zmiennej, natomiast oś rzędnych (OY) przedstawia hipotetyczne kwantyle odwrotnej, skumulowanej funkcji
- gęstości wybranego rozkładu.
- 13_1.jpeg
- Odstępstwa nie powinny przekraczać odległości +- 3 sigma (takie o z kreską do tylu) co w prosty sposób można określić patrząc na oś OY wykresu, która to przedstawia właśnie mnożnik sigma.
- 15 ) Wykres P-P (prawdopodobieństwo-prawdopodobieństwo)
- Analiza --> Opis statystyczny --> Wykresy P-P
- Podobne do poprzedniego narzędzie określające rozkład zmiennej. W przypadku wykresów P-P porównania są empiryczne i teoretyczne dystrybuanty rozkładu badnej zmiennej.
- Obydwa typy wykresów czułe sa na wartości skrajne i odstające, dlatego ważne jest, aby w przypadku danych o małej liczbie obserwacji pozbyć się ich przed przystąpieniem do
- Ćwiczenie 26
- Korzystając z wykresów P-P i K-K ocenić, które spośród zmiennych: poejmność skokowa, moc silnika, masa samochodu, najlepiej podlega rozkładowi normalnemu. Porównać wyniki z wykresami histogramów.
- Ćwiczenie 27
- Które spośród rozkładów dostępnych w wykresach P-P, K-K najlepiej opisuje rozkład zmiennej zużycie paliwa na 100 km.
- Ćwiczenie 28
- Wygenerować zmienną o wybranym rozkładzie i przetestować ją pod kątem wskazanego rozkładu.
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement