Como Controlar Dados

24/08 atv
14/09 prov
26/09 atv
19/10 prov
19/11 atv
07/12 prov
http://lite.acad.univali.br/rcurso

###Funções
2+2
a <- 2
b <- 90
c <- 2*a
d <- 2*sqrt(b)
e <- d*a*b*c
runif <- c("a, b, c, d")
a
b
c
d
e
runif
g <- c(1, 2, 3, 4, 5, 6, 7, 8, 9, 10)
g
log(a)
log(x = 10, base = 10)
log(x =10)
log(x = 3, base = 10)
exp(2.3025854)
factorial(10)

###Entrada de base de dados

dados <- read.table(file = "insira aqui nome da sua base de dados corretamente",
                    header = TRUE,
                    sep = ";",
                    dec = ",")
----------
### Importando dados

dados <- read.table(file = "DADOS.csv",
                    header = TRUE,
                    sep = ";",
                    dec = ",")


### Vizualizar as primeiras linhas de base de dados

head(dados)


### Visualizar a estrutura das variáveis...
str(dados)

dados$ANO
dados$FROTA
dados$MES
dados$LAT
dados$LON
dados$AREA

### Resumo estatístico de dados
summary(dados)

### 1 quartil 25% e 75%
### 2 quartil 50% e 50% (mediana)
### 3 quartil 75% e 25%
### mediana: 50% de todos os dados separados
### media: soma de todos os dados dividido pelo número de vezes que ele está representado
### assimetria positiva a média está para os maiores valores mediana está antes (menor)
### addimetria negativa a média está para os menores valores mediana está depois(maior)

### Resumo estatístico dos dados
describe(dados)
### Resumo gráficos - Histograma...
hist(dados$EFF)
### HISTOGRAMA
x <- hist(dados$EFF, col = "green",
     main = "Isto é um histograma",
     xlab = "Número de anzóis",
     ylab = "Frequência",
     ylim = c(0,500))
x
### DIAGRAMA
plot(x = dados$EFF, y = dados$LAGE, col = "brown",
     main = "Isto é um diagrama de disperção",
     xlab = "Número de anzóis",
     ylab = "Captura (kg)",
     pch = 25)

plot(x = dados$FROTA, y = dados$EFF, col = "blue")
### barra preta = mediana do dados de esforço do plot acima (2 quartil)
### caixinha azul parte de baixo (1 quartil), parte de cima azul (3 quartil)
### bigodinho pra baixo e pra cima = intervalo interquartil (diferença entre primeiro quartil e o terceiro quartil multiplicado por 1,54)
### bolinhas = outlier, dados fora do padrão, ou erro de digitação(deport)
### distribuição simétrica nesse plot seria tudo equilibrado se todos estivesse equilibrados no centro


### BAR PLOT (grafico de barras á seguir)

x <- table(dados$FROTA)
x
barplot(x, col = "red")

x <- table(dados$FROTA, dados$ANO)
x
barplot(x)
barplot(x, beside = TRUE)

barplot(x, beside = TRUE,
        legend.text = c("BRA", "BRA-ESP"),
        col = c("red", "green"))
--------
Semana que vem prova de "analise exploratória"

###analise de variância###

trata-se de um métodos estatístico que permite realiazar comparações simultâneas entre 3 ou mais médias, ou seja, testes hipóteses sobre médias de diferentes populações.

SPIN-OFF ->(TESTE-T : comparações de duas populações, testa hipoteses simples (hipotese nula(medias iguais m1=m2=m3....mnº) e altenativa(uma media distinta das demais)))
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------
                         ANOVA                                             |                                      TESTE-T
                                                                           |
                                                                           |
um único teste com 95% de confiança, ou seja, nível de significância é     |      Três testes, cada um com 95% de confiança, ou seja, cada teste com um erro alpha = 0,05
alpha= 0,05                                                                |
                                                                           |
Ex: M1=M2=M3                                                               |     Ex: M1=M2 , M1=M3, M2=M3
--------------------------------------------------------------------------------------------------------------------------------------------------------------------------

 ->Erro do tipo 1:  quanto mais testes são feitos em séries encadeadas cada um com seu erro respectivo ou nível de significância a probabilidade de termos um erro
é aumentada exponencialmente (alpha)
 ->Erro do tipo 2: Rejeitar H0 quando na verdade teria que falhar em rejeitar H0

Nunca podemos considerar o H1 ou H0 totalmente verdadeiros, mas precisamos analisar todas as possibilidades.

Média de idade da turma: 22.5

Amostra 1 = 20,21,21,32,22  M = 23,2
Amostra 2 = 22,18,29,19,26  M = 22,8 + ( PS: não foi retirado todos os integrantes da populção (turma) para fazer estas amostras)
Amostra 3 = 23,20,19,20,24  M = 21,2
                          -----------
                           MT = 22,4

 ->Erro não amostral: erro do estatístico(digitação), indução da pergunta, indução da resposta, medições não aleatórias (destintas por opção).


                    Variabilidade atribuida e outros fatores (ou seja dentro de cada grupos)
                   /
Variabilidade total
                   \
                    Variabilidade aribuida a classe (ou seja variabilidade entre os grupos)


 -> Pressupostos do ANOVA

 1) Independência das observações (consiste em pressupor que os erros são variáveis aleatórias independentes) Ex: votos para determinação da superioridade.
 -Independência analise de residuos = não ter um padrão  entre os residuos
 -Dependência analise de residuos = tem um padrão entre os residuos

 2) Igualdade das variâncias (consiste em que a variança entre as amostras tem que ser similar, estar dentro de padrões) declara sua homogenidade das varianças

 3) Normalidade ( consiste em ter uma  amostra normal e com variâncias distintas)


  I   | Yij |(Yij-y¯)² | ni(y¯i-y¯)²
------------------------------------             -> Yij = µi + eij
Praia | M.O.|          |
A     | 30  | 156,25   | 264,5                   y¯= Média = 17,25
A     | 28  | 110,25   |                         SQT = 511,5
B     | 18  | 0,25     |  0,5                    SQEnt= 507
B     | 16  | 2,25     |                         y¯a = 29
C     | 6   | 132,25   | 242                     y¯b = 17
C     | 7   | 110,25   |                         y¯c = 6,5
                                                 SQDen = SQT - SQEnt = 4,5
                                                 G.L.t = amostra - 1 = 5
                                                 G.L.e = 2
                                                 G.L.d = 3
                                                 MQE = 253,5
                                                 MQD = 1,5
                                                 F = 169

TABELAS -> http://lite.acad.univali.br/rcurso/anova/index.html

ID	Área I	Área II	Área III	Área IV
1	3,2	4,2	5,4	4,5
2	3,5	3,7	4,6	3,8
3	2,7	3,4	4	4,1
4	4,1	4,3	5,3	3,1
5	3,1	3,9	4,7	4,2
6	3,7	4,1	4,2	3,4
7	4,2	3,1	4,9	4,2
8	3,6	4,5	4,7	4,5

(yij-yg)^2	(yij-yg)^2	(yij-yg)^2	(yij-yg)^2

0,685791016	0,029541016	1,882041016	0,222666016
0,278916016	0,107666016	0,327041016	0,052041016
1,763916016	0,394541016	0,000791016	0,005166016
0,005166016	0,073916016	1,617666016	0,861416016
0,861416016	0,016416016	0,451416016	0,029541016
0,107666016	0,005166016	0,029541016	0,394541016
0,029541016	0,861416016	0,760166016	0,029541016
0,183291016	0,222666016	0,451416016	0,222666016


Média T=	4,028125
Média A1	3,5125
Média A2	3,9
Média A3	4,725
Média A4	3,975
SQT	12,9646875
SQEnt1	2,126953125
SQEnt2	0,131328125
SQEnt3	3,885078125
SQEnt4	0,022578125
SQEtnT	6,1659375
SQDen	6,79875
n	32
k	4
G.L.Total	31
G.L.Ent	3