RapidMiner je analytický software, v němž se dají “kreslit” analytické procesy ve formě orientovaného grafu. Uzly grafu jsou operátory, které provádějí nějaké operace s daty (nahrávají data z disku, transformují data, vytvářejí z dat model, produkují reporty, atd.). Hrany grafu spojující jednotlivé operátory představují cestu, kudy data tečou. Po různých hranách tečou různá data - mohou jimi být zdrojová analyzovaná data, ale i výsledky analýz, vytvořené modely, hodnocení modelů, atd.
Stáhněte si soubor iris.csv obsahující 4 fyzické charakteristiky 150 květů 3 druhů kosatců. Úkoly:
Průzkum výsledků procesu ve výsledkové perspektivě (result perspective):
Pokusme se na datech o kosatcích naučit stromový model. Ze záložky Operators
vložte do procesu operátor Modeling/Classification and Regression/Tree Induction/Decision Tree
. Spusťte proces a prozkoumejte výsledky pro Decision Tree
:
Nyní máme vytvořený model. Jakým způsobem jej ale můžeme použít k ohodnocení dat?
Zapojme za operátor DecisionTree
operátor Modeling/Model Application/Apply model
. Tento operátor očekává
mod
model, který má aplikovat (v našem případě je to Decision Tree
),
unl
(unlabeled) neohodnocenou datovou sadu, kterou má modelem ohodnotit.
Použijme pro jednoduchost znovu trénovací data:
Retrieve
se vstupním portem unl
operátoru Apply model
. Retrieve
už jedna hrana vede, RapidMiner nám nabízí možná řešení. Zvolme Insert I/O multipliers as needed
.lab
(labeled, ohodnocená data) operátoru Apply model
s výstupním portem celého procesu.Spusťme proces a prozkoumejme výsledky. V ohodnocené datové sadě přibyly 4 sloupce:
Máme vytvořenou datovou sadu obsahující jak skutečnou třídu (sloupec class
), tak i predikci modelu (sloupec prediction(class)
). Zapojme do procesu operátor Evaluation/Performance measurement/Performance
. Výsledky:
Tyto výsledky (přesnost) jsou ale změřeny na stejných datech, na nichž byl model učen, jsou tedy příliš optimistické. Jak získat lepší odhad prediktivní schopnosti modelu se dozvíme v dalším díle.