====== Statistika 2 ====== Program: * Diskuse o problémech a nejasnostech v posledním DÚ * Opakování: pravděpodobnost (2) * Vztah reálného světa a pravděpodobnosti a statistiky * Vlastnosti odhadů parametrů rozdělení pravděpodobnosti * Centrální limitní věta ===== Domácí úkol 2 ===== * Pokud jste tak ještě neučinili, vyplňte [[https://docs.google.com/forms/d/1g3CQIH4GbEJ4gKwXWvccDYbqz1Eyd2s5sB5fNYoagdM/viewform?usp=send_form|dotazník]] o vás. * Příklady: * [[courses:a6m33ssl:cviceni:statistika_domaci_ukoly|Jak postupovat s domácím úkolem]] * {{ :courses:a6m33ssl:cviceni:du2.zip |Zadání DU2}} ===== Opakování: pravděpodobnost (2) ===== **Distribuční a kvantilová funkce** (Použití [[http://cmp.felk.cvut.cz/~navara/psi/stat_tab.pdf|tabulek kvantilů a kritických hodnot]]) Hmotnost vyráběné pilulky lze popsat normálním rozdělením se střední hodnotou 120mg a rozptylem 1mg2. Výstupní kontrola testuje, zda tomu tak skutečně je, tak, že "rozumně" velký náhodný vzorek pilulek byl zvážen a setříděn podle narůstající hmotnosti. V jakém rozmezí lze čekat hmotnost 10% resp. 1% resp. 0,1% nejlehčích pilulek? V jakém rozmezí asi bude hmotnost 10% resp. 1% resp. 0,1% nejtěžších pilulek? Jaká je pravděpodobnost, že nalezneme pilulku o hmotnosti 120mg? Jaká je pravděpodobnost, že nalezneme pilulku těžší než 120mg? Jaká je pravděpodobnost, že nalezneme pilulku těžší než 123mg? Jaká je pravděpodobnost, že nalezneme pilulku o hmotnosti nižší než 117,5mg? **Generování (pseudonáhodných)čísel** Jak lze vygenerovat (pseudo)náhodné číslo z normálního rozdělení $N(0,1)$, máme-li k dispozici generátor (pseudo)náhodných čísel z intervalu $(0,1)$? A jak lze vygenerovat číslo z lib. daného rozdělení? ===== Vztah reálného světa a pravděpodobnosti a statistiky ===== Ilustrace: 3 světy - reálný, reálný zjednodušený, teoretický pravděpodobnostní model. ===== Vlastnosti odhadů parametrů rozdělení pravděpodobnosti ===== * Vlastnosti $EX$ a $var X$ Vypočtěte $E(a+BX)$ a $var(a+bX)$, kde $a,b \in \mathbf{R}$ a $X$ je náhodná veličina. Spočtěte střední hodnotu a rozptyl součtu resp. rozdílu dvou náhodných veličin. Spočítejte obecně a speciálně pro $X,Y \sim N(\mu, \sigma^2)$. Vysvětlete termíny: * **nestranný odhad** * **asymptoticky nestranný odhad** * **konzistentní odhad** Ilustrace: střelba na terč Uvažme realizace $x_i, i=1,\ldots,n$ náhodné veličiny z rozdělení $N(\mu,\sigma^2)$ s neznámým parametrem $\mu$ a se známým parametrem $\sigma^2$. Dále mějme čtyři odhady střední hodnoty $\mu$: $m_1=x_1, m_2=x_{(1)}, m_3=\frac{\sum_{i=1}^n{x_i}}{n}$ a $m_4=\frac{\sum_{i=1}^n{x_i}+1}{n}$. U každého odhadu určete, zda je nestranný, asymptoticky nestranný a konzistentní. ===== Centrální limitní věta ===== Jazyk R: * [[http://cran.r-project.org/doc/manuals/R-intro.pdf|Oficiální intro.]] * Interaktivní intro např. [[http://tryr.codeschool.com/levels/1/challenges/1|zde]]. Formulujte a vysvětlete centrální limitní větu a sami si ji vyzkoušejte pomocí následujícího {{:courses:a6m33ssl:cviceni:clv.r.txt|programu v jazyce R}}. Dokážete program (funkci ''g()'') upravit tak, aby demonstroval případy, kdy centrální limitní věta "neplatí" (tj. kdy normovaný součet náhodných veličin nemá normální rozdělení)? # Demonstrace centrální limitní věty (CLV). # CLV budeme demonstrovat na 'n' průměrech 'm' relizací náhodné veličiny # generované funkcí 'g'. # Funkce generující 'n' realizací náhodné veličiny. # Argumenty: # n: velikost výběru # Vrací: vektor 'n' realizací náhodné veličiny. g<-function(n) { # rovnoměrné rozdělení x<-runif(n,0,1) # další způsoby generování relizací náhodných veličin jsou # zakomentované (lze je jednoduše aktivovat smazáním znaku '#' před nimi) # normální rozdělení #x<-rnorm(n,.5,.2) # trojúhelníkové rozdělení #x<-runif(n,0,.5)+runif(n,0,.5) # bimodální rozdělení #x<-rnorm(n,.75-.5*(runif(n,0,1)<.5),.1) # házení mincí (alternativní rozdělení) #x<-rbinom(n,1,.5) return(x) } # Funkce generující 'm' náhodných vektorů délky 'n' a vykreslující histogram # jejich průměrů spolu s proloženým odhadem hustoty pravděpodobnosti # normálního rozdělení s parametry odhadnutými z dat. # Parametry: # m - počet vektorů # n - délka jednoho vektoru clv<-function(m,n,titulek) { # alokujeme matici typu 'm x n', v 'm' řádcích vektory 'n' realizací náh. veličiny x<-matrix(NA,m,n) for (i in 1:m) { x[i,]<-g(n) } x<-colMeans(x) # histogram hist(x, probability=TRUE, breaks=50, col='gray', ylab='hustota',main=titulek)#,xlim=c(-.1,1.1)) # proložíme hustotu pravděpodobnosti normálního rozdělení ax<-seq(from=min(x), to=max(x), length=100) # body na ose x ay<-dnorm(ax, mean(x), sd(x)) lines(ax, ay, col='red') } # počet vektorů m<-100 # délka jednoho vektoru n<-10000 options(scipen=5) # čísla chceme vypisovat ve fixní notaci # vykreslíme 3x2 obrázků opar<-par(mfrow=c(3,2)) clv(1,n,paste(n,'realizací n.v.')) clv(2,n,paste(n,'průměrů realizací 2 n.v.')) clv(3,n,paste(n,'průměrů realizací 3 n.v.')) clv(5,n,paste(n,'průměrů realizací 5 n.v.')) clv(20,n,paste(n,'průměrů realizací 20 n.v.')) clv(m,n,paste(n,'průměrů realizací',m,'n.v.')) par(opar) {{:courses:a6m33ssl:cviceni:clv2.png|}}