TEST 09
cost
funkce svm()
)?
Použijeme data "ADULT" z UCI Machine Learning Repository uložená v souboru adult.csv
Úkolem průzkumu dat je seznámit se se strukturou dat a popsat každý atribut základními statistickými údaji.
“?”
tohoto atributu?
Diskretizace dat převání spojitá data na nominální, nebo nám umožňuje definovat méně kategorií v rámci nominálního atributu.
“fnlwgt”
. Je možné použít ekvidistantní intervaly pro diskretizaci? Vyzkoušejte a zobrazte histogramy. Využijte například funkci discretize v balíku arules, který si případně nainstalujte.
Naše data jsou rozsáhlá, ale nemají vyvážené třídy (každá třída má jiný počet příkladů). Vzorkování dat je možné použít právě pro vyvážení.
Prohlědněte si data transformace.csv.
“y”
na “x”
. Vykreslete si závislost jako scatter plot. Lze mezi atributy tušit závislost? Pokud ano, jak byste závislost popsali?
“y”
a “x”
byla lépe znatelná. (Nápověda: zkuste hodnoty logaritmovat.)
Podíváme se na data tuk.txt. Data obsahují 3 příznaky (výška, váha, procento tuku).
d <- read.csv('tuk.txt') str(d) d <- d[complete.cases(d),] lm_w <- lm(fat ~ weight,data=d) summary(lm_w) lm_h <- lm(fat ~ height,data=d) summary(lm_h) lm_hw <- lm(fat ~ height + weight,data=d) summary(lm_hw) pca <- princomp(scale(d)) summary(pca) pca$loadings
Podíváme se znovu na data d2.csv. Data obsahující instance dvou tříd. U instancí jsme měřili 8 atributů.
# Pricipal Components Analysis library(MASS) library(rpart) library(rpart.plot) d <- read.csv('d2.csv') str(d) parcoord(d[,1:8],col=d[,9]) dectree <- rpart(c ~ .,data=d) rpart.plot(dectree) summary(dectree) dectree <- rpart(c ~ . + I(...),data=d) rpart.plot(dectree) pca <- princomp(scale(d[,1:8])) summary(pca) pca$loadings dectree <- rpart(d$c ~ pca$scores) rpart.plot(dectree)
Pro porovnání korelací mezi jednotlivými atributy je možné využít následující vizualizaci:
library(corrgram) corrgram(d[,1:8], order=TRUE, lower.panel=panel.shade, upper.panel=panel.pie, text.panel=panel.txt, main="Original dataset d2") #new pca attributes corrgram(pca$scores, order=TRUE, lower.panel=panel.shade, upper.panel=panel.pie, text.panel=panel.txt, main="Transformed dataset d2")
Prozkoumejte data boston.csv. Popis atributů je http://stat.ethz.ch/R-manual/R-patched/library/MASS/html/Boston.html.
“tax”
a “rad”
).