====== Cvičení 8 ======
Program:
* Test 3
* Korelace
* Lineární regrese
===== Domácí úkol 8 a 9 =====
* Příklady:
* [[courses:a6m33ssl:cviceni:statistika_domaci_ukoly|Jak postupovat s domácím úkolem]]
* {{:courses:a6m33ssl:cviceni:du8.zip|Zadání DU8}}
===== Korelace =====
Deprese a kouření.
V 15 vybraných okresech ČR bylo sledováno procento obyvatel, kteří kouří,
a zároveň index depresivity v daném okresu. Dostali jsme následující data:
| **procento kouření** | **index výskytu deprese** |
| 0,76 | 1,27 |
| 0,57 | 1,06 |
| 0,93 | 1,73 |
| 0,64 | 1,21 |
| 0,70 | 0,81 |
| 0,48 | 1,29 |
| 0,85 | 1,42 |
| 0,42 | 0,63 |
| 0,03 | 0,78 |
| 0,26 | 0,57 |
| 0,33 | 0,82 |
| 0,13 | 1,12 |
| 0,50 | 0,92 |
| 0,80 | 1,04 |
| 0,34 | 0,56 |
{{courses:a6m33ssl:cviceni:depresivita_koureni2.png?600|}}
Na hladině 5% otestujte, zda jsou míra kouření a výskyt depresí navzájem korelované.
Co se dá z výsledku usuzovat?
* spočtěte korelační koeficient
* spočtěte testovou statistiku testu o nulovosti korelačního koeficientu
* proveďte test
Nápověda: Průměrné procento kouření $\bar{k}=0,516$, průměrný index depresivity $\bar{d}=1,015$.
Korelační koeficient $r=0,656$.
V R lze test provést pomocí:
koureni <- c(0.76,0.57,0.93,0.64,0.70,0.48,0.85,0.42,0.03,0.26,0.33,0.13,0.50,0.80,0.34)
depresivita <- c(1.27,1.06,1.73,1.21,0.81,1.29,1.42,0.63,0.78,0.57,0.82,1.12,0.92,1.04,0.56)
cor.test(koureni, depresivita)
Srovnání výsledků testu 1 a 2 zadaných na cvičení SSL v LS 2015/16.
| **výsledek testu 1** | **výsledek testu 2** |
| 1.6 | 1.40 |
| 3.8 | 3.30 |
| 3.7 | 2.80 |
| 3.6 | 3.15 |
| 1.9 | 2.00 |
| 2.3 | 1.90 |
| 3.0 | 1.70 |
| 3.6 | 2.90 |
| 3.5 | 3.40 |
| 3.9 | 3.50 |
| 2.6 | 3.15 |
| 4.0 | NA |
| 2.5 | 1.85 |
| 2.0 | 1.25 |
| 3.5 | 2.75 |
| 4.0 | 3.15 |
| 0.9 | 1.90 |
| 3.2 | NA |
| 2.9 | 2.35 |
| 3.1 | 1.75 |
| 3.4 | NA |
| 4.0 | 1.75 |
| 4.0 | 2.00 |
| 4.0 | 3.50 |
| NA | 2.40 |
{{:courses:a6m33ssl:cviceni:test1_2.png|}}
Na hladině 5% otestujte, zda jsou výsledky těchto dvou testů korelované.
Co se dá z výsledku usuzovat?
* spočtěte korelační koeficient
* spočtěte testovou statistiku testu o nulovosti korelačního koeficientu
* proveďte test
Nápověda: Průměrný výsledek v testu 1 $\bar{T_1}=3,07$, průměrný výsledek v testu 2 $\bar{T_2}=2,45$.
Korelační koeficient $r=0,621$.
V R lze test provést pomocí:
test1 <- c(1.6,3.8,3.7,3.6,1.9,2.3,3.0,3.6,3.5,3.9,2.6,4.0,2.5,2.0,3.5,4.0,0.9,3.2,2.9,3.1,3.4,4.0,4.0,4.0,NA)
test2 <- c(1.40,3.30,2.80,3.15,2.00,1.90,1.70,2.90,3.40,3.50,3.15,NA,1.85,1.25,2.75,3.15,1.90,NA,2.35,1.75,NA,1.75,2.00,3.50,2.40)
cor.test(test1, test2)
===== Lineární regrese =====
(Pokračování předchozího příkladu)
Modelujte výsledek testu 2 pomocí výsledku testu 1.
* formulujte model a vysvětlete jej
* odhadněte parametry modelu (jsou významné?)
* interpretujte parametry modelu
* kolik procent variability v datech je schopen model vysvětlit?
* kdybychom uvažovali obrácený model (výsledek testu 1 vysvětlovaný pomocí výsledku testu 2), jaká by byla hodnota koeficientu příslušného k výsledku testu 2?
Co se dá z výsledků usuzovat?
Nápověda:
* $\widehat{\theta_0}\approx 0,886$, $\widehat{\sigma^2_{\widehat{\theta_0}}}\approx 0,472^2$, $t_{df}\approx 1,878$
* $\widehat{\theta_1}\approx 0,51$, $\widehat{\sigma^2_{\widehat{\theta_1}}}\approx 0,148^2$, $t_{df}\approx 3,453$
* koeficient determinace $r^2_{1,2}=\frac{\widehat{\sigma^2_{\widehat{t_2}}}}{\widehat{\sigma^2_{t_2}}}\approx 0,386$.
* korelační koeficient $r=0,621$.
V R lze test provést pomocí:
test1 <- c(1.6,3.8,3.7,3.6,1.9,2.3,3.0,3.6,3.5,3.9,2.6,4.0,2.5,2.0,3.5,4.0,0.9,3.2,2.9,3.1,3.4,4.0,4.0,4.0,NA)
test2 <- c(1.40,3.30,2.80,3.15,2.00,1.90,1.70,2.90,3.40,3.50,3.15,NA,1.85,1.25,2.75,3.15,1.90,NA,2.35,1.75,NA,1.75,2.00,3.50,2.40)
# vykreslení dat
plot(test1, test2, pch=19, frame=FALSE, xlim=c(0,4), ylim=c(0,4))
# odhad modelu lineární regrese
m <- lm(test2 ~ test1)
# vykreslení modelu lineární regrese
abline(coef(m),col='red')
grid()
# výpis modelu
summary(m)