Statistika 6

Program:

  • Testování hypotéz - jednovýběrové testy (viz minulé cvičení)
  • Testování hypotéz - dvouvýběrové a párové testy

Domácí úkol 6

Testování hypotéz - dvouvýběrové a párové testy

Vedení továrny zjištuje, zda pracovní výkonnost po obědě klesá. U pracovníků sleduje výkonnost dopoledne a odpoledne. Byly naměřeny následující hodnoty výkonnosti: dopoledne: 8,79; 10,28; 11,08; 7,65; 10,43; 10,51; 9,43; 9,45; 9,44; 9,11; 9,52; 9,00 ((výběrový) průměr $\bar{x}_1=9,557$, (výběrová) směrodatná odchylka 0,919); odpoledne: 8,62; 10,18; 11,08; 7,54; 10,28; 10,31; 9,24; 9,59; 9,35; 8,96; 9,38; 8,95 ((výběrový) průměr $\bar{x}_2=9,457$, (výběrový) rozptyl 0,866). (Výběrová) směrodatná odchylka rozdílů ve výkonnosti mezi odpolednem a dopolednem je 0,095. Na hladině $5\%$ otestujte hypotézu, že výkonnost odpoledne klesá.

  • Zamyslete se nad tím, co vlastně chcete zkoumat a jaká data máte k dispozici.
    • Myslíte si, že data představují spíše párová, nebo nepárová pozorování? (Tj. byly výkonnosti odpoledne naměřeny na stejných pracovnících jako dopoledne, nebo ne?) Co by bylo správnější? Co bychom mohli v jednotlivých případech testovat a jak? Jaký výsledek byste v jednotlivých případech očekávali a proč?
  • Formulujte nulovou a alternativní hypotézu.
  • Proveďte test a vyslovte závěr.
    • Proveďte párový i 2-výběrový test, srovnejte jejich výsledky, zdůvodněte rozdíly a komentujte, který test je pro data vhodný (správný) a který nikoli. Je nevhodný test pouze “nevhodný”, nebo je z principu nesprávný (a proč)?

V R by bylo možné odpovídající párový test provést pomocí:

x1 <- c(8.79, 10.28, 11.08, 7.65, 10.43, 10.51, 9.43, 9.45, 9.44, 9.11, 9.52, 9.00)
x2 <- c(8.62, 10.18, 11.08, 7.54, 10.28, 10.31, 9.24, 9.59, 9.35, 8.96, 9.38, 8.95)
t.test(x1, x2, paired = TRUE)

a odpovídající nepárový test pomocí:

x1 <- c(8.79, 10.28, 11.08, 7.65, 10.43, 10.51, 9.43, 9.45, 9.44, 9.11, 9.52, 9.00)
x2 <- c(8.62, 10.18, 11.08, 7.54, 10.28, 10.31, 9.24, 9.59, 9.35, 8.96, 9.38, 8.95)
t.test(x1, x2, paired = FALSE)

Pro srovnání:

Po čase byly naměřeny následující hodnoty výkonnosti: dopoledne: 8,79; 10,28; 11,08; 7,65; 10,43; 10,51; 9,43; 9,45; 9,44; 9,11; 9,52; 9,00 ((výběrový) průměr $\bar{x}_1=9,557$, (výběrová) směrodatná odchylka 0,919); odpoledne: 9,31; 7,82; 7,02; 10,45; 7,67; 7,59; 8,67; 8,65; 8,66; 8,99; 8,58; 9,10 ((výběrový) průměr $\bar{x}_2=8,543$, (výběrový) rozptyl 0,845). Směrodatná odchylka rozdílů ve výkonnosti mezi odpolednem a dopolednem je $1,836$. Nyní prozradíme, že výkonnosti byly naměřeny u stejných pracovníků dopoledne i odpoledne. Na hladině $5\%$ otestujte hypotézu, že výkonnost odpoledne klesá.

  • Formulujte nulovou a alternativní hypotézu.
  • Proveďte test a vyslovte závěr.

V tomto případě tedy ze zadání víme, že je třeba použít párový test. Narozdíl od minulého případu zde máme situaci, kdy by dvouvýběrový test (zde nevhodný) prokázal rozdíl mezi skupinami, ale párový test by rozdíl zaznamenal jen hraničně (jednostranný test na hladině 5% ano, oboustranný test na stejné hladině již ne). Tento příklad tedy ilustruje, že ne vždy musí platit, že párový test je silnější, než 2-výběrový. Dovedli byste říci, proč tomu tak v tomto případě je? (Uvažte zdroje variability v datech.)

V R by bylo možné odpovídající párový test provést pomocí:

x1 <- c(8.79, 10.28, 11.08, 7.65, 10.43, 10.51, 9.43, 9.45, 9.44, 9.11, 9.52, 9.00)
x2 <- c(9.31, 7.82, 7.02, 10.45, 7.67, 7.59, 8.67, 8.65, 8.66, 8.99, 8.58, 9.10)
t.test(x1, x2, paired = TRUE)

a odpovídající nepárový test pomocí:

x1 <- c(8.79, 10.28, 11.08, 7.65, 10.43, 10.51, 9.43, 9.45, 9.44, 9.11, 9.52, 9.00)
x2 <- c(9.31, 7.82, 7.02, 10.45, 7.67, 7.59, 8.67, 8.65, 8.66, 8.99, 8.58, 9.10)
t.test(x1, x2, paired = FALSE)
courses/a6m33ssl/cviceni/statistika_6.txt · Last modified: 2018/04/23 14:13 by xposik