Untitled

djelatnici <- read.csv2("djelatnici.csv")
attach(djelatnici )
#zad 1
#a
mean(placa_prije)#procjena ocekivanja
var(placa_prije)#procjena varijance
median(placa_prije)#procjena medijana
#b
prop.table(table(obrazovanje))
#trazena procjena vjerojatnosti je 0.06
prop.table(table(dob>35))
#procjena te vjerojatnosti je 0.26

#procjena distribucije
#empirijska distrubucija
#ecdf()
x <- rnorm(10)
ecdf(x)
plot(ecdf(x))

x <- rnorm(1000)
Fn <- ecdf(x)
Fn(1)#procjena ya F(1)-rel frekvencija vrijednosti manjih ili jednakih 1
prop.table(table(x<=1))
pnorm(1)
#diskretne slucajne varijable
#empirijska tablica distribucije
(tab <- prop.table(table(rukovodstvo)))
#ocekivanje empirijske distribucije
sum(as.numeric(names(tab))*tab)
#ili
mean(rukovodstvo)
#varijanca empirijske distribucije
sum(((as.numeric(names(tab))-mean(rukovodstvo))^2)*tab)
#ili
(length(rukovodstvo)-1)/length(rukovodstvo)*var(rukovodstvo)
#zadatak 2

hormon <- read.csv2("hormon.csv")
str(hormon)
hormon2 <- na.omit(hormon)#izbacuje sve NA retke iz hormon
str(hormon2)
#a
Fn <- ecdf(gastrS.bezNA)
plot(ecdf(gastrS.bezNA))
#b
1-Fn(50)#procjena da gastrS bude vece od 50
#ili
prop.table(table(gastrS.bezNA>50))
#c
Fn(75)-Fn(50)
#ili
prop.table(table(gastrS.bezNA>50 & gastrS.bezNA<=75))
#d
prop.table(table(gastrS.bezNA<55.1))
#e
prop.table(table(gastrS.bezNA<=55.1))
#ili
Fn(55.1)
#f
prop.table(table(dijagnoza))
#3
#ECDF je konzistentan procjenitelj i kovnergirat ce prema teoretskoj funkciji distribucije
n <- c(10,50,100,1000)
par(mfrow=c(2,2))
for(i in n)
{
  x <- rnorm(i)
  plot(ecdf(x),col="red",lwd=2,xlim=c(-4,4), main=paste("n=",i))
  curve(pnorm(x),col="blue",lwd=3,add=TRUE, lty=3)
}
#analiza distribucije uzorka
#pr:histogram 1000 slucajnih brojeva iz standardne normalne distribucije
uzorak <- rnorm(1000,0,1)
hist(uzorak)
hist(uzorak, probability = TRUE)
hist(uzorak, probability = TRUE, breaks = 30)
curve(dnorm(x,mean(uzorak),sd(uzorak)),-3,3,add = TRUE)
#histogram uz pretpostavljenu teorijsku gustocu s procjenjenim parametrima

x <- rnorm(1000,0,1)
y <- rnorm(1000,0,5)
par(mfrow=c(1,2))
hist(x, probability = TRUE, breaks=20, xlim=c(-20,20))
hist(y, probability = TRUE, breaks=20, xlim=c(-20,20))
#procjenjivanja funkcije gustoce
#density()
x <- rnorm(1000)
hist(x)
density(x)
plot(density(x))
plot(density(x),col="red")
curve(dnorm(t,mean(x),sd(x)),xname="t", add=TRUE)
#procjenjena fun gustoce poklapa se sa teorijskom fun gustoce, sto je i ocekivano jer smo generirali uzorak iz normalne distribucije
#QQplot
#pr
x <- rnorm(1000,0,1)
qqnorm(x)
qqline(x)
#tocke leze priblizno na pravcu y=x
#distribucije bi trebale biti jednake
#pr
x <- rnorm(1000,5,1)
qqnorm(x)
qqline(x)
#tocke su opet na pravcu, ali sada to nije y=x
#distribucije su povezane linearnom transformacijom

x <- rnorm(1000,0,1)
qqplot(qt(ppoints(x),4),x)
qqline(x)
#ukazuje na razlike u distribuciji repova
#ukazuje da uzorak vjerojatno nije iz t-distribucije
#primjer
x <- rexp(1000,1)
qqnorm(x)
qqline(x)
#zakrivljenost ukazuje da je distibucija asimetricna


#zad 4
#visina
hist(visina, probability = TRUE)
curve(dnorm(x,mean(visina),sd(visina)),add = TRUE)
plot(density(visina))
qqnorm(visina)
qqline(visina)
#analogno za drugu varijablu
#zad 5

theta1 <- function(x) max(x)
theta2 <- function(x)((length(x)+1)/length(x))*max(x)
theta3 <- function(x)2*mean(x)
n <- 1000
vrtheta1 <- c()
vrtheta2 <- c()
vrtheta3 <- c()
for(i in 1:n)
{
  uzorak <- sample(1:100,10,replace = TRUE)
  vrtheta1 <- c(vrtheta1, theta1(uzorak))
  vrtheta2 <- c(vrtheta2, theta2(uzorak))
  vrtheta3 <- c(vrtheta3, theta3(uzorak))
}
par(mfrow=c(1,3))
plot(density(vrtheta1),main=expression(hat(theta[1])))
abline(v=100)
#par(mfrow=c(1,3))
plot(density(vrtheta2),main=expression(hat(theta[2])))
abline(v=100)
#par(mfrow=c(1,3))
plot(density(vrtheta3),main=expression(hat(theta[3])))
abline(v=100)
#theta3 ocigledno ima najvecu varijanu
#theta2 je najblize stvarnoj vrijednosti
mean(vrtheta1)
mean(vrtheta2)
mean(vrtheta3)
var(vrtheta1)
var(vrtheta2)
var(vrtheta3)