Untitled

SPSS 3

1 ) Wstęp i progrma zajęć :

* Analiza danych - opis statystyczny
	# Raport wyników
	# Statystyki opisowe
	# Częstości
	# Eksploracje
	# Tabele krzyżowe
* Podzial danych na podzbiory
* Warunkowy wybór obserwacji
* Graficzne przedstawienie danych dla różnych typów zmiennych

2 ) Okno raportu

1.jpeg

Wyniki przeprowadzonych analiz przy pomocy różnych narzędzi SPSS wyświetlane są w osobnym oknie jako raport.
	* Okno raportu składa się z dwóch części:
		# Okna obiektów o drzewiastej strukturze (po lewej stronie)
		# Okna właściwych wyników (po prawej stronie)
	* Drzewiasta struktura ma za zadanie szybkie przełączanie i wyświetlanie określonych partii wyników, bez potrzeby przewijania długich stron,
	często dużej ilości zbędnych informacji.
	* Pojedyncze obiekty raportu, ale również ich grupy można kopiować, przenosić, usuwać, zarówno w głównym oknie wyników, jak i w powiązanym z nim
	oknie obiektów.
	* Każdy element raportu można edytować.
	* Edycję zaznaczonego elementu aktywuje się dwukrotnym kliknięciem na nim (obiekt zostanie otoczony przerywaną linią), a następnie poprzez
	wybrane opcje menu kontekstowego  (wywołany prawym klawiszem myszki) dokonuje się zmian bądź poprzez Edycję zawartości --> W oknie raportu.
	W osobnym oknie - wywołanie prawym klawiszem myszy.


Bezpośrednio z okna raportu wyniki (obiekty składowe raportu) można eksportować do innych formatów: pdf, doc, xls etc. Jest przy tym rzeczą wyboru,
czy eksportowane będą wszystkie obiekty całego raportu, aktualnie widoczne na ekranie, czy tylko wybrane (zaznaczone) elementy.

3 ) Statystki opisowe

2.jpeg

Analiza --> Opis Statystyczny --> Statystyki opisowe

Narzędzie pozwala na :
	* określenie miar tendencji centralnej (położenia rozkładu): średnia, suma
	* określenia miar rozproszenia (zróżnicowania rozkładu): odchylenie std, wariancja, rozstęp, minimum, maksimum, błąd standardowej średniej
	* określenie miar koncentracji i asymetrii rozkładu: spłaszczenie - kurtoza, skosność
	* wyliczenie wartości standaryzowanych dla zmiennych wejściowych
	* zmianę porządku wyświetlania wg, listy zmiennych, alfabetycznie ,wg średniej

3.1 ) Statystki opisowe - raport

W oknie raportu wyniki analiz przedstawiane są w formie tabeli :

2_1.jpeg

* Pierwsza kolumna: etykiety/ nazwy zmiennych
* Druga kolumna: liczba ważnych obserwacji
* Trzecia, czwarta, piąta ...zależnie od zaznaczonych opcji, obliczane statystki
* Kolejne wiersze oznaczają wybrane zmienne


3.2 ) Statystki opisower - ćwiczenia

Ćwiczenie 1
Obliczyć miary tendencji centralnej i jednocześnie dokonać standaryzacji analizowanych zmiennych typu ilościowego. Usunąć z raportu zbędne obiekty -
pozostawić tylko tabelę obliczonych wartości. Porównać wartości wybranej zestandaryzowanej zmiennej z wartościami obliczonymi z wykorzystaniem
narzędzia, obliczanie wartości zmiennej

Ćwiczenie 2
Określić koncentrację i asymetrię rozkładu, a także rozproszenie względem średniej dla zmiennych prevexp i salary. Kolejność wyników wyświetlić rosnąco
względem średniej.

Wartość 0(zero) współczynnika skośności określa rozkład symetryczny badanej cechy. W praktyce przyjmuje się ,żę gdy współczynnik jest mniejszy od 0.5
rozkład badanej cechy jest symetryczny natomiast gdy jest on większy od 1 rozkład jest mocno skośny. Ujemne wartośći określają rozkłady lewostronnie
asymetryczne (wydłużone lewe ramię rozkładu), a wartości dodatnie o asymetrii prawostronnej (długie prawie ramię rozkładu).

Ze względu na spłaszczenie - kurtozę, wyróżnia się rozkłady:
mezokurtyczne - wartość współczynnika wynosi 0 (spłaszczenie jest jak dla rozkładu normalnego)
leptokurtyczne - wartość współczynnika dodatnia oznacza, że wartości badanej cechy posiadają większą koncentrację niż przy rozkładzie normalnym
(strzelisty wykres rozkładu funkcji prawdopodobieństwa)
platokurtyczne - wartość współczynnika jest ujemna - mniejsza koncentracja niż przy rozkładzie normalnym (płaski wykres rozkładu funkcji prawdopodobieństwa)

4 ) Częstości

Analiza --> Opis statystyczny --> Częstości

3.jpeg

Narzędzie pozwala na :
	* - wyznaczanie tabel częstości obserwacji dla wybranych zmiennych
	* - organizację wyników: porównanie lub podział zmiennych
	* - wyznaczanie miar tendencji centralnej
	* - wyznaczanie miar rozproszenia
	* - wyznaczanie parametrów rozkładów
	* - wyznaczanie wartości percentyli
	* - tworzenie wykresów zarówno dla zmiennych ilościowych jak i jakościowych
	* - formatowanie wyników np w zależności od ilości kategorii zmiennych


3_1.jpeg
Pierwsza tabela stanowi uzupełnienie. Wyświetla ona informacje według wybranych opcji. Jeżeli nie zaznaczymy żadnej z opcji to wyświetlona zostanie tylko
liczebność próbki i braków danych (jakie mogą w niej występować).
Kolumny reprezentują zmienne dla których w wierszach obliczone są wybrane statystki.

3_2.jpeg
W zależności od ilości wybranych zmiennych, wyświetlona zostanie odpowiednia ilość tabel. Każda z tablic posiada jednakową liczbę kolumn.
	* - pierwszą kolumnę stanowią etykity wartości zmiennej (stąd wyznaczanie częstości dla zmiennych ilościowych [ogromna ilość kategorii] nie ma sensu)
	* - druga kolumna : liczebność poszczególnych kategorii
	* - trzecia kolumna : procentowy udział poszczególnych kategroii (względem całości)
	* - czwarta kolumna : procentowy udział poszczególnych kategorii ważnych wartośći ( po odrzuceniu braków danych)
	* - piąta kolumna : suma udziałów procentowych aktualnej i poprzednich kategorii
	* - wiersze stanowią kategorie zmiennej, przy czym ostatni jest ostatni prezentuje liczbę wszystkich rekordów

4.2 ) Częstości - ćwiczenia

Ćwiczenie 3
Która grupa respondentów, ze względu na miesiąc urodzenia jest najliczniejsza? Jaki procent respondentów stanowi grupa urodzona w dwóch pierwszych kwartałach
roku?

Ćwiczene 4
Wyznaczyć tablice częstości i jednocześnie wszystkie miary rozproszoności, tendencji centralnej oraz wartości percentyli dla zmiennyhc: jobcat, minority, prevexp.
Sformatować raport rosnąco według wartości, uwzględnić, że zmienna prevexp jest typu ilościowego i nie warto wyświetlać dla niej pełnej tablicy częstości -
ograniczyć się do liczniejszej w kategorie spośród pozostałych dwóch zmiennych.

5 ) Ekspolaracja

Procedura Ekploracja pozwala na utworzenie statystki podsumowującej oraz graficzną raprezentację danych dla wszystkich obserwacji, albo oddzielnie dla grup
obserwacji.

Istnieje wiele powodów ,dla których warto używać procdery Ekploracja:
	* klasyfikowania danych
	* identyfikacja wartości odstających
	* sprawdzanie założeń oraz charakteryzowanie różnic pomiędzy kategoriami( grupami obserwacji)

Klasyfikowania danych może wykazać obceność wartości niezwykłych, wartości skrajnych, luk w danych lub innych osobliwości.

Eksploracja danych może być pomocna w ustaleniu, czy techniki statystyczne, których użytkownik ma zamiar użyć w celu analizy danych są odpowiednie. Ekspolaracja
może wykazać ,że należy przekształcić dane, jeśli technika wymaga rozkładu normalnego. Użytkownik może też zdecydować się na zastosowanie testów nieparametrycznych :
	Analiza --> Opis statystyczny --> Ekspolaracja

4.jpeg

* - wybieramy conajmniej jedną zmienną typu ilościowego --> Zmienne zależne
* - opcjonalnie wybieramy :
	# - co najmniej jeden czynnik, którego wartości zdefiniuje grupy obserwacji (zmienne kategoryzująca) --> Listy czynników
	# - zmienną identyfikacyjną do opisu obserwacji
* - wybieramy przycisk statystki
	# - statystki opisowe : pomiary tendencji, centralnej i rozproszenia itp. Wyświetlony jest również 95 % poziom przedziału ufności dla średniej
	# - M-estymatory : mocne alternatywy dla przykładowej średniej i mediany do oszacowania środka położenia. Obliczone estymatory różnią się wagami, które stosują do
	obserwacji. Wyświetlane są : estymator M Hubera, estymator fali Andrewsa, estymator M Hampela oraz estymator dwuwagi Tukeya.
	# - wartości skrajne : umożliwia wyświetlenie pięciu wartości najwiekszych i pięciu najmniejszych wraz z etykietami obserwacji
	# - percentyle : umożliwia wyświetlanie wartości dla 2., 10., 25., 50., 75. i 95 percentyla

5.1 ) Ekspolaracja - ćwiczenia

Ćwiczenie 5
Za pomocą Ekspolarcji sprawdzić ile średnio respondenci spędzają godzin przed telewizorem (tvhours) w zależności od poziomu wykształcenia. (degree)

Ćwiczenie 6
Za pomocą Eksploracji dokonać analizy zmiennej wiek respondenta (age) ze względu na płeć (sex).
Określić :
a ) liczby analizowanych przypadków
b ) średnią wieku : porównać ją z wartościami mocnych estymatorów
c ) którzy respondenci (numer obserwacji) żyli najdłużej, najkrócej

Ćwiczenie 7
Za pomocą Eksploracji określić wartość środkową zarobków (salary) ze względu na płeć (gender), wykształcenie(college). Czy możliwe jest określenie mediany zarobków ze
względu na płeć dla zdefinowanych w zbiorze grup wykształcenia ?

6 ) Tabele krzyżowe

Tabele krzyżowe(tabele kontyngencji) są popularnym i prostym narzędziem służacym do badania zależności pomiędzy zmiennymi o niskiej liczbie kategorii. Możliwe jest
przedstawienie informacji, w jaki sposób kategorie(wartości) jednej zmiennej rozkładają się w kategoriach(wartościach) innej zmiennej, a więc prezentowane są wszystkie
możliwe zależności ( chodzi o zależności poszczególnych wartości zmiennych - kategorii ) pomiędzy nimi.

	Analiza --> Opis statystyczny --> Tabele krzyżowe

5.jpeg

* Zmienne w wierszach i kolumnach to zmienne między którymi odsetek/liczbę obserwacji chcemy sprawdzić.
* Warstwa zwiększa wymiar tabeli o kolejne kategorie. Dodanie jednej warstwy złożonej z dwóch wartości rozdzieli zależność pomiędzy zmiennymi w wierszu i kolumnie na dwie
tabele(tyle ile jest w jednej warstwie kategorii ). Dodanie dwóch lub więcej warstw spowoduje wyświetlenie zależności w jednej tabeli, kolejno ze względu na zmienne
warstwujące.

5_1.jpeg

* Kolejność zmiennych: wiersz, kolumna nie ma znaczenia. W celu zwiększenia wyników, zaleca się umieszczanie zmiennych o mniejszej liczbie kategorii w kolumnach.
* Opcja Komórki pozawala na łączny, lub rozłączny wybór sposobu prezentacji wartości. Na ogół we wstępnych analizach korzysta się z liczebnoci: obserwowanych, oczekiwane
oraz procentów wyświetlanych dla wierszy, kolmn, ogółu.
* Narzędzie nie tylko pozwala na okreśelenie liczebności obeserowowanych(empirycznych), ale również na wyznaczenie wartości oczekiwanych(teoretycznych), które przy założeniu
niezależności zmiennych wynikają z iloczynów rozkładów brzegowych.
* Opcje dotyczące statystyk omówione zostaną przy temacie korelacji i ilościowego wyznacznia miar siły związku/zależności zmiennych dyskretnych otrzymywanych przy pomocy testów
statystycznych.
* Pole reszty dotyczy wyznaczania różnic pomiędzy liczebnościami zaobserwowanymi i oczekiwanymi: niestandaryzowane(różnica obydwu liczebności), standaryzowane(różnica podzielona
przez odchylenie std. tych różnic), skorygowane standaryzowane(różnica podzielona przez swój błąd standardowy)

5_2.jpeg

Jako przykład zastosowania tabel krzyżowych chcemy sprawdzić:
* jaki odsetek kobiet i mężczyzn posiada poziom wykształcenia high school?
* jaki procent wszystkich badanych osób danej płci stanowią respondenci, którzy uzyskali bachelor?
* jaki odsetek mężczyzn uzyskało gradute w stosunku do innych poziomów wyształcenia?

Po dodaniu do wiersza zmiennej płeć i do kolumny wykształcenie otrzymujemy :

* procent z wiersza : określa procentową wartość, jaką stanowi liczebność danej komórki w stosunku do liczby obserwacji wszystkich kategorii zmiennej umieszczonej w polu Zmienne w
wierszach. W tym przypadku określa, jaki procent wszystkich respondentów tej samej płci stanowia osoby o różnych poziomach wyształcenia: np. najwiekszy odsetek 55.7% badanej próby
stanowią kobiety z wykształceniem high school, a najmniejszy 5.4% graduate.
* odsetek z kolumny : określa procentową wartość, jaką stanowi liczebność danej komórki w stosunku do liczby obserwacji wszystkich kategorii zmiennej umieszczonej w polu Zmienne w kolumnach.
W tym przypadku określa, jaki procent osób z każdej kategorii określajacej poziom wykształcenia stanowią respondenci danej płci, np. mężczyźni stanowią tylko 39 % wszystkich respondentów z
wykształceniem high school.
* odsetek ogółem : określa procentową wartość, jaką stanowi liczebność danej komórki w stosunku do liczebności całej badanej próby: np - osoby ze stopniem bachelor stanowią 15.6% badnej próby,
z czego kobiety stanowią 7.2%, a mężczyźni 8.4%

5.1 )

Ćwiczenie 8
Sprawdzić jaki odsetek wśród kobiet stanowią wdowy. Jaka jest różnica dla kobiet i mężczyzn w tej kategorii stanu cywilnego? Jaki procent ogółu stanowi grupa osób rozwiedzonych? Jaka jest liczba
wszystkich kobiet bedących w zwiazku, a jaka wszystkich kobiet biorących udział w ankiecie?

Ćwiczenie 9
Która kategoria wiekowa (agecat4) przejawia największe upodobanie do muzyki country, western(country) wśród tych, którzy lubią ten gatunek muzyki. Jaki odsetek stanowią kobiety, a jaki mężczyźni
(sex). W której kategorii wiekowej występuje największy odsetek mężczyzn bardzo lubiących ten gatunek muzyki? Jaki procent stanowią respondenci z przedziału wiekowego 40-49 lat, którzy zdecydowanie
nie lubią tego gatunku muzyki?

Ćwiczenie 10
Jak zmienią się wyniki z poprzedniego zadania, jeżeli grupa osób na pytanie "czy lubisz muzykę coutnry" odpowiedziała "Nie wiem" połączmy z grupą która odpowiedziała "Zdecydowanie nie lubię"?  Co
należy uprzednio wykonać na danych, aby można było użyć tabel krzyżowych dla podanego przykładu ?

6 ) Podział danych na podzbiory

Cały zbiór danych można analizować ze względu na określoną cechę/zmienną, jedną lub kilka. Oczywiście zmienna dyskretna w kategoriach której przeprowadzana będzie analiza nie powinna być zmienną
ilościową , a więc powinna charakteryzować się wysoką częstością posiadanych wartośći.

	Dane --> Podziel dane na podzbiory

6.jpeg

W zależności od tego w jaki sposób mają być zestawione wyniki, należy wybrać właściwą opcję podziału danych w wywołanym oknie dialogowym.
	* Porównaj grupy - w oknie raportu wszystkie poszczególne wyniki analiz będą przedstawiane łącznie dla kategorii zmiennej dzielącej (jedna tabela wyników) tak, aby łatwe było porównanie, jak
	okreslona cecha zmienia się w kategoriach zmiennej grupującej.
	* Przedsaw wyniki w podziale na grupy - wszystkie wyniki analiz zostaną przedstawione rozłącznie w podzielone na tyl wyników składowych ile liczy zmienna dzieląca zbiór.

Podział danych sygnalizowany jest w pasku stanu okna głównego programu. Należy pamiętać, aby usunąć podział kiedy nie jest on już potrzebny.

6.1 ) Podział danych na podzbiory - ćwiczenia

Ćwiczenie 11
Obliczyć ile średnio zarabiają kobiety i mężczyźni (gender) w każdej z grup pracowniczych (jobcat). Przedstawić dane w porównaniu na grupy i w podziale na grupy.

Ćwiczene 12
Określić średni wiek zawarcia pierwszego małżeństwa (agewed) ze względu na płeć (sex), rasę (race), poziom wykształcenia(degree) i region zamieszkania(region) respondenta.

7 ) Warunkowy wybór obserwacji

Poddawane analizie dane można filtrować, czyli nie wszystkie obserwacje muszą być analizowane. Kryterium obiera użytkownik, wedle własnych potrzeb.

7.jpeg

Dane --> Wybieranie obserwacji

* według warunku narzuconego na zmienną(e)
* próbka pobierana jest losowo ze zbioru
* z zaznaczonego zakresu obserwacji
* poprzez jedną zmienną kategoryzującą

Dane filtrowane są na podstawie zmiennej dychtomicznej $filter tworzonej w oparciu o zdefinowany warunek.

Wprowadzony filtr danych jest aktywny do momentu anulowania w analogiczny sposób w jaki został włączony, a informacja wyświetlana jest w pasku stanu: Filtr włączony.

Obserwacje można równiez wybierać w każdym oknie dialogowym, które taką opcję posiada:

7_1.jpeg

Z tym ,że jeżeli dokonamy warunkowego zaznaczenia obserwacji w zakresie danego okna dialogowego, to wybór będzie aktywny lokalnie, tzn ,że jeżeli przejdziemy do innego okna w celu wykonania innej
analizy to warunki wyboru wartości zmiennych nie będą już aktywne.

Przykładem takiego okna jest Oblicz wartośći w menu Przekształcenia.

7.1 )  Warunkowy wybór obserwacji - ćwiczenia

Ćwiczenie 13
Ile osób, które ukończyły college(degree2) i są obecnie w stanie wolnym(martial) jest spod znaku (zodiac) barana lub lwa. Ile jest takich kobiet, a ile mężczyzn? W którym regionie (region4) jest
najwięcej takich osób?

Ćwiczenie 14
W jakim średnio wieku respodnenci zawierali pierwsze małżenstwo(agewed), mieszkający (xnorcsiz) na przedmieściach dużego miasta, lub w miastach większych niż 250tys, mający co najmniej dwójkę
rodzeństwa (sibs), których dochód miesięczny(rincom91) wynosił od 8 do 15 tys dolarów. Ilu było takich respondentów w zależności od wieku? Ile było takich kobiet, a ilu mężczyzn?

8 ) Graficzna prezentacja danych

8.jpeg

Dobór metody graficznej prezentacji danych zależy od rodzaju zmiennej.

Inaczej postępujemy ze zmiennymi ilościowymi(duża ilość kategorii), a inaczej z nominalnymi/porządkowymi(wysoka częstość występowania poszczególnych wartości, przy niskiej ilości kategorii)

A - tego rodzaju wykresy stosuje się przeważnie do wizualizacji zmiennych dyskretnych o niskiej ilości kategorii
B - tego rodzaju wykresy przeznaczone sa do prezentacji zmiennych ilościowych

Oczywiście nie są to bezwzględne reguły ze względu na poziom pomiaru zmiennej, program nie zaprotestuje jeżeli dodana zostanie zmienna innego typu.

9 ) Wykresy (ogólnie)

W zależności jak chcemy przedstawić dane, czy interesuje nas kategorie danej zmiennej (A) czy istnieje potrzeba graficznego zestawienia określonych statystyk między zmiennych (B), albo po prostu
chcemy zaprezentować wartości kolejnych obserwacji (C), zaznaczamy odpowiednie pole.

Pole to znajduje się w pierwszym oknie dialogowym pojawiającym się zaraz po wybraniu interesującego nas typu wykresu np: Wykresy --> Wykresy tradycyjny --> Słupkowy

9.jpeg

W zależności od od tego w jaki sposób chcemy przedstawić wartości zmiennych na wykresie, wybieramy typ wykresu:
	* prosty
	* zgrupowany
	* zestawiony
i określamy w jaki sposób mają być przedstawiane dane na wykresach:
	* opisy dla grup obserwacji
	* podsumowanie oddzielonych zmiennych
	* wartości poszczególnych zmiennych

A. W przypadku przedstawiania danych na wykresach, jako: opisy dla grup obserwacji mamy następujące typy wykresów :
	* Prosty - najczęściej używa się dla wyświetlania liczebności, procentu obserwacji jdenej zmiennej (nominalenj, porządkowej - o niskiej liczbie kategorii), dodanej do pola: Oś kategorii. Można
	również w kategoriach zmiennej zdefinowanej, jako oś kategorii wyświetlać statystki opisowej dowolnej innej zmiennej (również ilościowych), np. średni wiek respondentów (zmienna ilościowa) ze
	względu na płęć (nominalna)
	Jeżeli chcemy przedstawić opisane poprzednio cechy ze względu na kolejne zmienne (ich kategorie), to zmienne te nalży dodac do panelu Wiersze(jeżeli wykresy mają być przedstawione jeden obok
		drugiego), lub Kolumny (jeżeli wykresy mają być przedstawione jedne pod drugim).

	* Zgrupowany - ten typ wykresu wybieramy, jeżeli chcemy porównać kategorie jednej zmiennej (pole: oś kategorii) w grupach innej zmiennej (pole: definiuj zestawienia przez) - obdywie zmienne
	powinny posiadać niską liczbę kategorii/grup) - podobnie jak poprzednio możemy wyznaczać ilość, procent w poszczególnych grupach obserwacji, ale również statystki opisowe ze względu na dowolną
	zmienną ilościową, np. jakie są średnie zarobki respondentów ze względu na płeć w poszczególnych regionach kraju.
	* Zestawiony - w przypadku tego typu prezentacji danych zmienne przedstawiane są podobnie, jak dla typu wykresu zgrupowanego z tym, że poszczególne kategorie zmiennej określone polem definiuj
	zestawienia przez prezentowane są nie obok siebie, ale w sposób skumulowany w jednej kolumnie.

B. Dla danych na wykresach przedstawionych, jako: podsumowanie oddzielonych zmiennych w zależności jaki typ wykresu wybierzemy: prost, zgrupowany, zestawiony możliwe jest wyznaczenie funkcji
statystycznych jednej, lub kilku zmiennych - oś wartości OY przypisywana jest pierwszej wybranej zmiennej, dlatego należy pamiętać ,że ten sposób przedstawiania danych dotyczy zmiennych
reprezentujących tą samą wielkość np. średni przychód respondenta w kolejnych kwartałach.
C. W przypadku ostatniego rodzaju przedstawianie danych na wykresach, jako : wartości poszczególnych zmiennych, wyświetlane sa kolejne wartości obserwacji. Sortowanie obserwacji ma tutaj decydujący
wpływ na wygląd generowanego wykresu.

10 ) Wykresy słupkowe

	Wykresy --> Wykresy tradycyjne --> Słupkowy --> Prosty, Opisy dla grup..

Tworzy wykres opisujący kategorie pojedynczej zmiennej. Wysokość słupka reprezentuje liczebność/procent kategorii zmiennej zdefiniowanej w polu oś kategorii, bądź funkcję wybranej zmiennej, którą
można wybrać po zaznaczeniu opcji inna statystyka opisowa.

10.jpeg

Zaznacz zmienną, której kategorię mają być wyznaczone na osi OX wykresu i przenieś ją w pole Oś kategorii.

Zaznacz jedną z możliwości w polu Słupki przedstawiają, aby określić wartość jakiej wielkości (ewentualnie funkcja jakiej zmiennej) będzie wyświetlona na osi OY wykresu.

Jeżeli oś wartości ma przedstawiać funckję innej zmiennej opisowej, zaznacz opcję Inna funkcja statystyczna (np. średnia), a następnie wybierz zmienną numeryczną, która ma zostać scharakteryzowana w
kategoriach zmiennych zdefiniowanej w polu oś kategorii. Aby zmienić funkcję opisową, kliknij przycisk Zmień funkcję statystyczną.

Opcjonalnie do pola wiersza, kolumny dodaj kolejne zmienne, ze względu na kategorie których wyświetlone mają być dane.

10. 1 ) Wykresy słupkowe - ćwiczenia

Ćwiczenie 15
Przedstawić na wykresie słupkowym dominantę wieku respondentów w zależności od regionu zamieszkania.

Ćwiczenie 16
a ) Przedstawić na wykresie słupkowym liczbę respondentów zmiennej region, w podziale na płeć, jako dwa oddzielne wykresy w wierszu
b ) Przedstawić dane tak, aby liczby respondentów każdego regionu były zgrupowane według płci w obszarze jednego wykresu.
c ) Zmodyfikować wykres z punktu b ) w ten sposób, aby słupki zawierały informacje o procentowamy udziale kategorii zmiennej.

11 ) Wykresy kołowe


	Wykresy --> Wykresy tradycyjne --> Kołowy --> Opisy dla grup obserwacji

Tworzy wykres opisujący kategorie pojedynczej zmiennej.

Zaznacz zmienną i przenieś ją w pole Podziel według. Zmienna może być numeryczna, tekstowa lub długa tekstwoa.

Dla każdej kategorii zmiennej wycinka generowany jest jeden wycinek koła.

Zaznacz jedną z możliwości w grupie Wycinki przedstawiają, aby określić sposób przedstawienia danych na wycinkach wykresu kołowego.

Aby wyświetlić sumę wartości zmiennej, zaznacz opcję Podsumowanie zmiennej, a następnie zaznacz zmienną i przenieś ją w pole Zmienna. Zmienna ta musi być numeryczna.

11.1 ) Wykresy kołowe - ćwiczenia

Ćwiczenie 17
Przedstawić na wykresie kołowym procent respondentów zamieszkujących dany region kraju. Zmodyfikować wykres tak, aby na każdym wycinku widniała odpowiedająca mu wartość numeryczna	procentowego udziału.

Ćwiczenie 18
Przedstawić na wykresie kołowym sumę wartości zmiennej płeć, respondentów zamieszkujących dany region kraju. Zmodyfkiować wykres tak, aby wyświetlane były wartości liczowe sumowanej zmiennej. Zmienić
efekt wyświetlania wykresu na "3-wymiarowy".

12 ) Kreator wykresów

	Wykresy --> Kreator wykresów

Dzięki kreatorowi wykresów można tworzyć wykresy ze wstępnie zdefiniowanej galerii lub budować je z poszczególnych części (np. osi i słupków). Wykresy buduje się poprzez przeciąganie i upuszczanie
wykresów galerii lub części podstawowych do obszaru roboczego znajdującego się w oknie dialogowym kreatora po prawej stronie Listy zmiennych.
Za pomocą Kreatora wykresów można nieco szybciej generować wykresy, jednocześnie oferuje on szereg funkcji niedostępnych w przypadku wykresów tradycyjnyc.

Wykres skrzynkowy(pudełkowy/skrzynka z wąsami) stosowany jest do przedstawiania rozkładu uporządkowanych wartości cechy. W szybki sposób, mozna analizować rozproszenie oraz typ skośności rozkładu cechy/
zmiennej.

11.jpeg

Na podstawie wykresu skrzynkowego możemy określić :
	* położenie wartości środkowej - mediany
	* wartość kwartyli (I i III)
	* położenie wartości zmiennej, które nie odstają od miar tendencji centralnej
	* wartości skrajnych i nietypowych

Wysokość pudełka to wartość rozstępu międzykwartylowego (I i III) - ćwiartkowego. Obszar pudełka zawiera 50 % wartości zmiennej/ cechy. Wąsy określają najniższe i najwyższe wartości nie odstające  -
znajdujące się w odległości nie większej niż 1.5 długości srzynki. Kółka to obserwacje, które mają wartości większe od 1.5 do 3 długości skrzynki od jej górnej lub dolnej krawędzi, a gwiazdka powyżej 3.
Pozioma kreska wewnątrz pudełka to mediana.

Wnioskowanie o typie skośności rozkładu w oparciu o wykres skrzynkowy przedstawia rysunek poniżej :

11_1.jpeg

Obydwa wykresy skrzynkowe dotyczą rozkładów asymetrycznych, ponieważ mediana jest przesunięta względem wartości średniej. Z lewej strony mamy przykład rozkładu lewostronnego, a z prawej prawostronnego.

Ćwiczenie 19
Za pomocą kreatora wyświetlić skrzynkowe wykresy średniej sprzedaży aut (sales) ze względu na typ auta (type). Określić symetrię rozkładu zmiennej opisującej typ auta(type). Skonkludować wszystkie wartości
znajdujące się na wykresie z danymi ilościowymi (skośność, mediana, kwartyle, wartości odstające i skrajne). Określić asymetrię rozkładów.

12 ) Histogram

Wykres typu histogrma jest kolejnym rodzajem wykresu prezentującego rozkład badanej cechy/zmiennej. Prosta forma histogramu dostępna jest w kategorii wykresów tradycyjnych. Jeżeli natomiast użytkownik chce
ingerować w sposób generowania histogramu np. w ilość i szerokość przedziałów klasowych, należy skorzystać z kreatora wykresów.

Przy pomocy histogramu możliwa jest analiza parametrów rozkładu (skośność, kurtoza) i rozproszenie zmiennej, jak również jego modulaność.

Dodatkową funkcją jest możliwość wykreślenia krzywej normalnej, na podstawie obliczonych parametrów(średniej i odchylenia standardowego badanej zmiennej).

12.1 ) Histogram - ćwiczenia

Ćwiczenie 20
Wykonać histogram zmiennej acceler z naniesioną krzywą gęstości rozkładu normalnego.

Ćwiczenie 21
Wykonać histogram zmiennej acceler z naniesioną krzywą normalną rozkładu. Histogram ma przedstawić procentowy udział każdej z klas szergu rozdzielczego. Ograniczyć liczbę klas wg. reguły sqrt(n) gdzie n to
liczba obserwacji, a szerokość klas pozostawić automatyczną. Zgrupować histogram wzgledem miejsca produkcji (region).

	Wykresy --> Wykresy tradycyjne --> Rozrzutu/Punktowe

Za pomocą tego narzędzia, można przedstawić, czy wartości jednej cechy/zmiennej rozkładają się względem innej (innych) cechy/zmiennej.

Jest to jakościowy odpowiednik testu korelacynego dla par zmiennych.

W tym wypadku kształt wykresu decyduje o występowaniu zależności. Im kształt jest bardziej zbliżony do eliptycznego (pochylonego w prawo lub lewo ) tym ta zależność jest większa.

Przy czym ważne jest, aby analizowany zbiór danych zawierał dużą liczbę obserwacji (zmienne ilościowe).

Ćwiczenie 22
Ocenić czy występuje zależność pomiędzy przyspieszeniem (acceler), a pojemnością skokową (power) samochodów?

Ćwiczenie 23
Jak rozkłada się według miejsca produkcji: moc silnika, zużycie paliwa, masa samochodu?

13 ) Dopasowanie i interpolacje

12.jpeg

Dopasowanie i interpolacje wykonuje się na etapie gdy mamy już stworzony wykres - czyli w oknie raportu.

Ćwiczenie 24
Dopasować prostą metodą regresji liniowej do wykresu zależności zmiennej zużycia paliwa (gas_100) od mocy silnika(power).

Ćwiczenie 25
Zinterpolować dane metodą prostej i splinów (krzywe sklejania) dla wykresu liniowego zmiennej rocznik (prodyear).

14 ) Wykres K-K (kwantyl-kwantyl)

	Analiza --> Opis statystyczny --> Wykres K-K

Wykreśla kwantyle rozkładu zmiennej względem kwantyli teoretycznych. Jeśli zmienna odpowiada rozkładowi testowanemu, to punkty skupiają się przy lini prostej.

13.jpeg

Wykresy K-K z trendem. Na osi odciętych (OX) przedstawiane są rzeczywiste wartości kwantyli analizowanej zmiennej, natomiast oś rzędnych (OY) przedstawia hipotetyczne kwantyle odwrotnej, skumulowanej funkcji
gęstości wybranego rozkładu.

13_1.jpeg

Odstępstwa nie powinny przekraczać odległości +- 3 sigma (takie o z kreską do tylu) co w prosty sposób można określić patrząc na oś OY wykresu, która to przedstawia właśnie mnożnik sigma.

15 ) Wykres P-P (prawdopodobieństwo-prawdopodobieństwo)

	Analiza --> Opis statystyczny --> Wykresy P-P

Podobne do poprzedniego narzędzie określające rozkład zmiennej. W przypadku wykresów P-P porównania są empiryczne i teoretyczne dystrybuanty rozkładu badnej zmiennej.

Obydwa typy wykresów czułe sa na wartości skrajne i odstające, dlatego ważne jest, aby w przypadku danych o małej liczbie obserwacji pozbyć się ich przed przystąpieniem do

Ćwiczenie 26
Korzystając z wykresów P-P i K-K ocenić, które spośród zmiennych: poejmność skokowa, moc silnika, masa samochodu, najlepiej podlega rozkładowi normalnemu. Porównać wyniki z wykresami histogramów.

Ćwiczenie 27
Które spośród rozkładów dostępnych w wykresach P-P, K-K najlepiej opisuje rozkład zmiennej zużycie paliwa na 100 km.

Ćwiczenie 28
Wygenerować zmienną o wybranym rozkładzie i przetestować ją pod kątem wskazanego rozkładu.