Advertisement
Not a member of Pastebin yet?
Sign Up,
it unlocks many cool features!
- djelatnici <- read.csv2("djelatnici.csv")
- attach(djelatnici )
- #zad 1
- #a
- mean(placa_prije)#procjena ocekivanja
- var(placa_prije)#procjena varijance
- median(placa_prije)#procjena medijana
- #b
- prop.table(table(obrazovanje))
- #trazena procjena vjerojatnosti je 0.06
- prop.table(table(dob>35))
- #procjena te vjerojatnosti je 0.26
- #procjena distribucije
- #empirijska distrubucija
- #ecdf()
- x <- rnorm(10)
- ecdf(x)
- plot(ecdf(x))
- x <- rnorm(1000)
- Fn <- ecdf(x)
- Fn(1)#procjena ya F(1)-rel frekvencija vrijednosti manjih ili jednakih 1
- prop.table(table(x<=1))
- pnorm(1)
- #diskretne slucajne varijable
- #empirijska tablica distribucije
- (tab <- prop.table(table(rukovodstvo)))
- #ocekivanje empirijske distribucije
- sum(as.numeric(names(tab))*tab)
- #ili
- mean(rukovodstvo)
- #varijanca empirijske distribucije
- sum(((as.numeric(names(tab))-mean(rukovodstvo))^2)*tab)
- #ili
- (length(rukovodstvo)-1)/length(rukovodstvo)*var(rukovodstvo)
- #zadatak 2
- hormon <- read.csv2("hormon.csv")
- str(hormon)
- hormon2 <- na.omit(hormon)#izbacuje sve NA retke iz hormon
- str(hormon2)
- #a
- Fn <- ecdf(gastrS.bezNA)
- plot(ecdf(gastrS.bezNA))
- #b
- 1-Fn(50)#procjena da gastrS bude vece od 50
- #ili
- prop.table(table(gastrS.bezNA>50))
- #c
- Fn(75)-Fn(50)
- #ili
- prop.table(table(gastrS.bezNA>50 & gastrS.bezNA<=75))
- #d
- prop.table(table(gastrS.bezNA<55.1))
- #e
- prop.table(table(gastrS.bezNA<=55.1))
- #ili
- Fn(55.1)
- #f
- prop.table(table(dijagnoza))
- #3
- #ECDF je konzistentan procjenitelj i kovnergirat ce prema teoretskoj funkciji distribucije
- n <- c(10,50,100,1000)
- par(mfrow=c(2,2))
- for(i in n)
- {
- x <- rnorm(i)
- plot(ecdf(x),col="red",lwd=2,xlim=c(-4,4), main=paste("n=",i))
- curve(pnorm(x),col="blue",lwd=3,add=TRUE, lty=3)
- }
- #analiza distribucije uzorka
- #pr:histogram 1000 slucajnih brojeva iz standardne normalne distribucije
- uzorak <- rnorm(1000,0,1)
- hist(uzorak)
- hist(uzorak, probability = TRUE)
- hist(uzorak, probability = TRUE, breaks = 30)
- curve(dnorm(x,mean(uzorak),sd(uzorak)),-3,3,add = TRUE)
- #histogram uz pretpostavljenu teorijsku gustocu s procjenjenim parametrima
- x <- rnorm(1000,0,1)
- y <- rnorm(1000,0,5)
- par(mfrow=c(1,2))
- hist(x, probability = TRUE, breaks=20, xlim=c(-20,20))
- hist(y, probability = TRUE, breaks=20, xlim=c(-20,20))
- #procjenjivanja funkcije gustoce
- #density()
- x <- rnorm(1000)
- hist(x)
- density(x)
- plot(density(x))
- plot(density(x),col="red")
- curve(dnorm(t,mean(x),sd(x)),xname="t", add=TRUE)
- #procjenjena fun gustoce poklapa se sa teorijskom fun gustoce, sto je i ocekivano jer smo generirali uzorak iz normalne distribucije
- #QQplot
- #pr
- x <- rnorm(1000,0,1)
- qqnorm(x)
- qqline(x)
- #tocke leze priblizno na pravcu y=x
- #distribucije bi trebale biti jednake
- #pr
- x <- rnorm(1000,5,1)
- qqnorm(x)
- qqline(x)
- #tocke su opet na pravcu, ali sada to nije y=x
- #distribucije su povezane linearnom transformacijom
- x <- rnorm(1000,0,1)
- qqplot(qt(ppoints(x),4),x)
- qqline(x)
- #ukazuje na razlike u distribuciji repova
- #ukazuje da uzorak vjerojatno nije iz t-distribucije
- #primjer
- x <- rexp(1000,1)
- qqnorm(x)
- qqline(x)
- #zakrivljenost ukazuje da je distibucija asimetricna
- #zad 4
- #visina
- hist(visina, probability = TRUE)
- curve(dnorm(x,mean(visina),sd(visina)),add = TRUE)
- plot(density(visina))
- qqnorm(visina)
- qqline(visina)
- #analogno za drugu varijablu
- #zad 5
- theta1 <- function(x) max(x)
- theta2 <- function(x)((length(x)+1)/length(x))*max(x)
- theta3 <- function(x)2*mean(x)
- n <- 1000
- vrtheta1 <- c()
- vrtheta2 <- c()
- vrtheta3 <- c()
- for(i in 1:n)
- {
- uzorak <- sample(1:100,10,replace = TRUE)
- vrtheta1 <- c(vrtheta1, theta1(uzorak))
- vrtheta2 <- c(vrtheta2, theta2(uzorak))
- vrtheta3 <- c(vrtheta3, theta3(uzorak))
- }
- par(mfrow=c(1,3))
- plot(density(vrtheta1),main=expression(hat(theta[1])))
- abline(v=100)
- #par(mfrow=c(1,3))
- plot(density(vrtheta2),main=expression(hat(theta[2])))
- abline(v=100)
- #par(mfrow=c(1,3))
- plot(density(vrtheta3),main=expression(hat(theta[3])))
- abline(v=100)
- #theta3 ocigledno ima najvecu varijanu
- #theta2 je najblize stvarnoj vrijednosti
- mean(vrtheta1)
- mean(vrtheta2)
- mean(vrtheta3)
- var(vrtheta1)
- var(vrtheta2)
- var(vrtheta3)
Advertisement
Add Comment
Please, Sign In to add comment
Advertisement