Statistika 8

Program:

  • Test 3
  • Korelace
  • Lineární regrese

Domácí úkol 8 a 9

Korelace

Deprese a kouření.

V 15 vybraných okresech ČR bylo sledováno procento obyvatel, kteří kouří, a zároveň index depresivity v daném okresu. Dostali jsme následující data:

procento kouření index výskytu deprese
0,76 1,27
0,57 1,06
0,93 1,73
0,64 1,21
0,70 0,81
0,48 1,29
0,85 1,42
0,42 0,63
0,03 0,78
0,26 0,57
0,33 0,82
0,13 1,12
0,50 0,92
0,80 1,04
0,34 0,56

Na hladině 5% otestujte, zda jsou míra kouření a výskyt depresí navzájem korelované. Co se dá z výsledku usuzovat?

  • spočtěte korelační koeficient
  • spočtěte testovou statistiku testu o nulovosti korelačního koeficientu
  • proveďte test

Nápověda: Průměrné procento kouření $\bar{k}=0,516$, průměrný index depresivity $\bar{d}=1,015$. Korelační koeficient $r=0,656$.

V R lze test provést pomocí:

koureni <- c(0.76,0.57,0.93,0.64,0.70,0.48,0.85,0.42,0.03,0.26,0.33,0.13,0.50,0.80,0.34)
depresivita <- c(1.27,1.06,1.73,1.21,0.81,1.29,1.42,0.63,0.78,0.57,0.82,1.12,0.92,1.04,0.56)
cor.test(koureni, depresivita)

Srovnání výsledků testu 1 a 2 zadaných na cvičení SSL v LS 2015/16.

výsledek testu 1 výsledek testu 2
1.6 1.40
3.8 3.30
3.7 2.80
3.6 3.15
1.9 2.00
2.3 1.90
3.0 1.70
3.6 2.90
3.5 3.40
3.9 3.50
2.6 3.15
4.0 NA
2.5 1.85
2.0 1.25
3.5 2.75
4.0 3.15
0.9 1.90
3.2 NA
2.9 2.35
3.1 1.75
3.4 NA
4.0 1.75
4.0 2.00
4.0 3.50
NA 2.40

Na hladině 5% otestujte, zda jsou výsledky těchto dvou testů korelované. Co se dá z výsledku usuzovat?

  • spočtěte korelační koeficient
  • spočtěte testovou statistiku testu o nulovosti korelačního koeficientu
  • proveďte test

Nápověda: Průměrný výsledek v testu 1 $\bar{T_1}=3,07$, průměrný výsledek v testu 2 $\bar{T_2}=2,45$. Korelační koeficient $r=0,621$.

V R lze test provést pomocí:

test1 <- c(1.6,3.8,3.7,3.6,1.9,2.3,3.0,3.6,3.5,3.9,2.6,4.0,2.5,2.0,3.5,4.0,0.9,3.2,2.9,3.1,3.4,4.0,4.0,4.0,NA)
test2 <- c(1.40,3.30,2.80,3.15,2.00,1.90,1.70,2.90,3.40,3.50,3.15,NA,1.85,1.25,2.75,3.15,1.90,NA,2.35,1.75,NA,1.75,2.00,3.50,2.40)
cor.test(test1, test2)

Lineární regrese

(Pokračování předchozího příkladu)

Modelujte výsledek testu 2 pomocí výsledku testu 1.

  • formulujte model a vysvětlete jej
  • odhadněte parametry modelu (jsou významné?)
  • interpretujte parametry modelu
  • kolik procent variability v datech je schopen model vysvětlit?
  • kdybychom uvažovali obrácený model (výsledek testu 1 vysvětlovaný pomocí výsledku testu 2), jaká by byla hodnota koeficientu příslušného k výsledku testu 2?

Co se dá z výsledků usuzovat?

Nápověda:
  • $\widehat{\theta_0}\approx 0,886$, $\widehat{\sigma^2_{\widehat{\theta_0}}}\approx 0,472^2$, $t_{df}\approx 1,878$
  • $\widehat{\theta_1}\approx 0,51$, $\widehat{\sigma^2_{\widehat{\theta_1}}}\approx 0,148^2$, $t_{df}\approx 3,453$
  • koeficient determinace $r^2_{1,2}=\frac{\widehat{\sigma^2_{\widehat{t_2}}}}{\widehat{\sigma^2_{t_2}}}\approx 0,386$.
  • korelační koeficient $r=0,621$.

V R lze test provést pomocí:

test1 <- c(1.6,3.8,3.7,3.6,1.9,2.3,3.0,3.6,3.5,3.9,2.6,4.0,2.5,2.0,3.5,4.0,0.9,3.2,2.9,3.1,3.4,4.0,4.0,4.0,NA)
test2 <- c(1.40,3.30,2.80,3.15,2.00,1.90,1.70,2.90,3.40,3.50,3.15,NA,1.85,1.25,2.75,3.15,1.90,NA,2.35,1.75,NA,1.75,2.00,3.50,2.40)

# vykreslení dat
plot(test1, test2, pch=19, frame=FALSE, xlim=c(0,4), ylim=c(0,4))

# odhad modelu lineární regrese
m <- lm(test2 ~ test1)

# vykreslení modelu lineární regrese
abline(coef(m),col='red')
grid()

# výpis modelu
summary(m)
courses/a6m33ssl/cviceni/statistika_8.txt · Last modified: 2018/04/23 14:20 by xposik