====== Statistika 8 ====== Program: * Test 3 * Korelace * Lineární regrese ===== Domácí úkol 8 a 9 ===== * Příklady: * [[courses:a6m33ssl:cviceni:statistika_domaci_ukoly|Jak postupovat s domácím úkolem]] * {{ :courses:a6m33ssl:cviceni:du8.zip |Zadání DU8}} ===== Korelace ===== Deprese a kouření. V 15 vybraných okresech ČR bylo sledováno procento obyvatel, kteří kouří, a zároveň index depresivity v daném okresu. Dostali jsme následující data: | **procento kouření** | **index výskytu deprese** | | 0,76 | 1,27 | | 0,57 | 1,06 | | 0,93 | 1,73 | | 0,64 | 1,21 | | 0,70 | 0,81 | | 0,48 | 1,29 | | 0,85 | 1,42 | | 0,42 | 0,63 | | 0,03 | 0,78 | | 0,26 | 0,57 | | 0,33 | 0,82 | | 0,13 | 1,12 | | 0,50 | 0,92 | | 0,80 | 1,04 | | 0,34 | 0,56 | {{courses:a6m33ssl:cviceni:depresivita_koureni2.png?600|}} Na hladině 5% otestujte, zda jsou míra kouření a výskyt depresí navzájem korelované. Co se dá z výsledku usuzovat? * spočtěte korelační koeficient * spočtěte testovou statistiku testu o nulovosti korelačního koeficientu * proveďte test Nápověda: Průměrné procento kouření $\bar{k}=0,516$, průměrný index depresivity $\bar{d}=1,015$. Korelační koeficient $r=0,656$. V R lze test provést pomocí: koureni <- c(0.76,0.57,0.93,0.64,0.70,0.48,0.85,0.42,0.03,0.26,0.33,0.13,0.50,0.80,0.34) depresivita <- c(1.27,1.06,1.73,1.21,0.81,1.29,1.42,0.63,0.78,0.57,0.82,1.12,0.92,1.04,0.56) cor.test(koureni, depresivita) Srovnání výsledků testu 1 a 2 zadaných na cvičení SSL v LS 2015/16. | **výsledek testu 1** | **výsledek testu 2** | | 1.6 | 1.40 | | 3.8 | 3.30 | | 3.7 | 2.80 | | 3.6 | 3.15 | | 1.9 | 2.00 | | 2.3 | 1.90 | | 3.0 | 1.70 | | 3.6 | 2.90 | | 3.5 | 3.40 | | 3.9 | 3.50 | | 2.6 | 3.15 | | 4.0 | NA | | 2.5 | 1.85 | | 2.0 | 1.25 | | 3.5 | 2.75 | | 4.0 | 3.15 | | 0.9 | 1.90 | | 3.2 | NA | | 2.9 | 2.35 | | 3.1 | 1.75 | | 3.4 | NA | | 4.0 | 1.75 | | 4.0 | 2.00 | | 4.0 | 3.50 | | NA | 2.40 | {{:courses:a6m33ssl:cviceni:test1_2.png|}} Na hladině 5% otestujte, zda jsou výsledky těchto dvou testů korelované. Co se dá z výsledku usuzovat? * spočtěte korelační koeficient * spočtěte testovou statistiku testu o nulovosti korelačního koeficientu * proveďte test Nápověda: Průměrný výsledek v testu 1 $\bar{T_1}=3,07$, průměrný výsledek v testu 2 $\bar{T_2}=2,45$. Korelační koeficient $r=0,621$. V R lze test provést pomocí: test1 <- c(1.6,3.8,3.7,3.6,1.9,2.3,3.0,3.6,3.5,3.9,2.6,4.0,2.5,2.0,3.5,4.0,0.9,3.2,2.9,3.1,3.4,4.0,4.0,4.0,NA) test2 <- c(1.40,3.30,2.80,3.15,2.00,1.90,1.70,2.90,3.40,3.50,3.15,NA,1.85,1.25,2.75,3.15,1.90,NA,2.35,1.75,NA,1.75,2.00,3.50,2.40) cor.test(test1, test2) ===== Lineární regrese ===== (Pokračování předchozího příkladu) Modelujte výsledek testu 2 pomocí výsledku testu 1. * formulujte model a vysvětlete jej * odhadněte parametry modelu (jsou významné?) * interpretujte parametry modelu * kolik procent variability v datech je schopen model vysvětlit? * kdybychom uvažovali obrácený model (výsledek testu 1 vysvětlovaný pomocí výsledku testu 2), jaká by byla hodnota koeficientu příslušného k výsledku testu 2? Co se dá z výsledků usuzovat? Nápověda: * $\widehat{\theta_0}\approx 0,886$, $\widehat{\sigma^2_{\widehat{\theta_0}}}\approx 0,472^2$, $t_{df}\approx 1,878$ * $\widehat{\theta_1}\approx 0,51$, $\widehat{\sigma^2_{\widehat{\theta_1}}}\approx 0,148^2$, $t_{df}\approx 3,453$ * koeficient determinace $r^2_{1,2}=\frac{\widehat{\sigma^2_{\widehat{t_2}}}}{\widehat{\sigma^2_{t_2}}}\approx 0,386$. * korelační koeficient $r=0,621$. V R lze test provést pomocí: test1 <- c(1.6,3.8,3.7,3.6,1.9,2.3,3.0,3.6,3.5,3.9,2.6,4.0,2.5,2.0,3.5,4.0,0.9,3.2,2.9,3.1,3.4,4.0,4.0,4.0,NA) test2 <- c(1.40,3.30,2.80,3.15,2.00,1.90,1.70,2.90,3.40,3.50,3.15,NA,1.85,1.25,2.75,3.15,1.90,NA,2.35,1.75,NA,1.75,2.00,3.50,2.40) # vykreslení dat plot(test1, test2, pch=19, frame=FALSE, xlim=c(0,4), ylim=c(0,4)) # odhad modelu lineární regrese m <- lm(test2 ~ test1) # vykreslení modelu lineární regrese abline(coef(m),col='red') grid() # výpis modelu summary(m)