Search
TEST 09
cost
svm()
Použijeme data "ADULT" z UCI Machine Learning Repository uložená v souboru adult.csv
Úkolem průzkumu dat je seznámit se se strukturou dat a popsat každý atribut základními statistickými údaji.
“?”
Diskretizace dat převání spojitá data na nominální, nebo nám umožňuje definovat méně kategorií v rámci nominálního atributu.
“fnlwgt”
Naše data jsou rozsáhlá, ale nemají vyvážené třídy (každá třída má jiný počet příkladů). Vzorkování dat je možné použít právě pro vyvážení.
Prohlědněte si data transformace.csv.
“y”
“x”
Podíváme se na data tuk.txt. Data obsahují 3 příznaky (výška, váha, procento tuku).
d <- read.csv('tuk.txt') str(d) d <- d[complete.cases(d),] lm_w <- lm(fat ~ weight,data=d) summary(lm_w) lm_h <- lm(fat ~ height,data=d) summary(lm_h) lm_hw <- lm(fat ~ height + weight,data=d) summary(lm_hw) pca <- princomp(scale(d)) summary(pca) pca$loadings
Podíváme se znovu na data d2.csv. Data obsahující instance dvou tříd. U instancí jsme měřili 8 atributů.
# Pricipal Components Analysis library(MASS) library(rpart) library(rpart.plot) d <- read.csv('d2.csv') str(d) parcoord(d[,1:8],col=d[,9]) dectree <- rpart(c ~ .,data=d) rpart.plot(dectree) summary(dectree) dectree <- rpart(c ~ . + I(...),data=d) rpart.plot(dectree) pca <- princomp(scale(d[,1:8])) summary(pca) pca$loadings dectree <- rpart(d$c ~ pca$scores) rpart.plot(dectree)
Pro porovnání korelací mezi jednotlivými atributy je možné využít následující vizualizaci:
library(corrgram) corrgram(d[,1:8], order=TRUE, lower.panel=panel.shade, upper.panel=panel.pie, text.panel=panel.txt, main="Original dataset d2") #new pca attributes corrgram(pca$scores, order=TRUE, lower.panel=panel.shade, upper.panel=panel.pie, text.panel=panel.txt, main="Transformed dataset d2")
Prozkoumejte data boston.csv. Popis atributů je http://stat.ethz.ch/R-manual/R-patched/library/MASS/html/Boston.html.
“tax”
“rad”