Cvičení 2

TEST https://goo.gl/forms/foQgBffnLz8JYq2p1

Průzkumová analýza

pojmy: datová matice, pozorování, příznaky (prostor příznaků), typy dat, expertní informace, rozdělení a rozsah hodnot, chybná vs. odlehlá pozorování, chybějící data
pojmy ze statistiky: náhodná veličina (rozdělení, střední hodnota, rozptyl) vs. realizace náh. veličiny = náh. výběr (histogram, výběrový průměr, výběrový rozptyl, výběrový korelační koeficient
Úkolem průzkumu dat je seznámit se se strukturou dat a popsat každý atribut základními statistickými údaji.

Do svého pracovního adresáře uložte soubor iris.csv

# načtení dat
setwd('/home/user/...')
data <- read.csv("iris.csv")

Nebo využijte knihovnu datasets package, která obsahuje iris data obsahuje 1111111

library(datasets)
data <- iris

Jednoduchá průzkumová analýza

# popis dat
dim(data) 
names(data)
data[1:5,]
str(data)
summary(data)

dsum <- apply(data[,1:4],2,mean)
dsum <- tapply(data$Sepal.Length, data$Species, mean)
dsum <- by(data[1:4],data$Species,function(x) {apply(x,2,mean)}) # vrací list - není moc praktické pro další manipulaci, lze převést na data frame pomocí do.call('rbind',dsum) 

# pokročilou manipulaci s daty nabízí knihovna plyr
library(plyr)
dsum <- ddply(data,.(Species),function(x){apply(x[,1:4],2,mean)})

# užitečné funkce - mean, sd, median, is.na, is.nan, is.finite, ...

Grafy v R

Klasické bodové a čarové grafy

plot(data$Sepal.Length)
plot(data$Sepal.Length,type='l')
plot(data$Sepal.Length,type='b')
plot(data$Sepal.Length,data$Sepal.Width)
plot(data$Sepal.Length,data$Sepal.Width,col=data$Species)
plot(data$Sepal.Length,data$Sepal.Width,col=data$Species,pch=19)
plot(data$Sepal.Length,
     data$Sepal.Width,
     col=data$Species,
     pch=19,
     main='Edgar Anderson\'s Iris data',
     xlab='Sepal Length',
     ylab='Sepal Width')

# legenda
legend('topright',
       legend=levels(data$Species),
       pch=19,
       col=1:length(levels(data$Species)))

# vykreslit body
avgSepal.Length <- tapply(data$Sepal.Length,data$Species,mean)
avgSepal.Width <- tapply(data$Sepal.Width,data$Species,mean)
points(avgSepal.Length,avgSepal.Width,pch='X',cex=2,col=4)

# vykreslit čáry
lines(lowess(data$Sepal.Length[data$Species=='setosa'],data$Sepal.Width[data$Species=='setosa']))
lines(lowess(data$Sepal.Length[data$Species=='versicolor'],data$Sepal.Width[data$Species=='versicolor']),col=2)
lines(lowess(data$Sepal.Length[data$Species=='virginica'],data$Sepal.Width[data$Species=='virginica']),col=3)

# další elementy - line(), abline(),

Boxplot

boxplot(data$Sepal.Length ~ data$Species)

Histogram

hist(data$Sepal.Length)
hist(data$Sepal.Length,100)

Histogramy pro jednotlivé třídy v jednom grafu

hist(data$Sepal.Length[data$Species == 'setosa'],
     50,
     xlim=c(min(data$Sepal.Length),
     max(data$Sepal.Length)),
     col=2,
     main='Edgar Anderson\'s Iris data')
hist(data$Sepal.Length[data$Species == 'versicolor'],50,col=3,add=T)
hist(data$Sepal.Length[data$Species == 'virginica'],50,col=4,add=T)

Scatter Plot Matrix

pairs(data)

Grafy pomoci knihovny GGPLOT2

library(ggplot2)

Mapování dat → vizualizace

ggplot(data, aes(x=Sepal.Length, y=Sepal.Width))+geom_point()
ggplot(data, aes(x=Sepal.Length, y=Sepal.Width))+geom_point()+geom_line()
ggplot(data, aes(x=Sepal.Length, y=Sepal.Width))+geom_point(aes(color=Species))+geom_line()
ggplot(data, aes(x=Sepal.Length, y=Sepal.Width))+geom_point()+geom_line(aes(color=Species))
ggplot(data, aes(x=Sepal.Length, y=Sepal.Width, color=Species))+geom_point()+geom_line()

Příklady grafů

ggplot(data, aes(x=Species, y=Petal.Width))+geom_boxplot()

ggplot(data, aes(x=Sepal.Length))+geom_histogram()
ggplot(data, aes(x=Sepal.Length))+geom_histogram(binwidth=0.1)
ggplot(data, aes(x=Sepal.Length))+geom_histogram(binwidth=0.1, aes(colour=Species))
ggplot(data, aes(x=Sepal.Length))+geom_histogram(binwidth=0.1, aes(fill=Species))
ggplot(data, aes(x=Sepal.Length))+geom_histogram(binwidth=0.1, alpha=0.4, aes(fill=Species))
ggplot(data, aes(x=Sepal.Length))+geom_histogram(binwidth=0.1, position="identity", alpha=0.4, aes(fill=Species))

Úkoly

Použijte data "ADULT" z UCI Machine Learning Repository uložená v souboru adult.csv

Kolik atributů data obsahují?
Obsahují data chybějící hodnoty?
Nakreslete histogram pro atribut workclass. Co vyjadřuje hodnota “?” tohoto atributu?
Jaká hodnota je dominantní u atributu hours.per.week?
Do kolika tříd máme data klasifikovat?

R script pro cvičení

bude doplněn po cvičení