Search
RapidMiner je analytický software, v němž se dají “kreslit” analytické procesy ve formě orientovaného grafu. Uzly grafu jsou operátory, které provádějí nějaké operace s daty (nahrávají data z disku, transformují data, vytvářejí z dat model, produkují reporty, atd.). Hrany grafu spojující jednotlivé operátory představují cestu, kudy data tečou. Po různých hranách tečou různá data - mohou jimi být zdrojová analyzovaná data, ale i výsledky analýz, vytvořené modely, hodnocení modelů, atd.
Stáhněte si soubor iris.csv obsahující 4 fyzické charakteristiky 150 květů 3 druhů kosatců. Úkoly:
Průzkum výsledků procesu ve výsledkové perspektivě (result perspective):
Pokusme se na datech o kosatcích naučit stromový model. Ze záložky Operators vložte do procesu operátor Modeling/Classification and Regression/Tree Induction/Decision Tree. Spusťte proces a prozkoumejte výsledky pro Decision Tree:
Operators
Modeling/Classification and Regression/Tree Induction/Decision Tree
Decision Tree
Nyní máme vytvořený model. Jakým způsobem jej ale můžeme použít k ohodnocení dat? Zapojme za operátor DecisionTree operátor Modeling/Model Application/Apply model. Tento operátor očekává
DecisionTree
Modeling/Model Application/Apply model
mod
unl
Použijme pro jednoduchost znovu trénovací data:
Retrieve
Apply model
Insert I/O multipliers as needed
lab
Spusťme proces a prozkoumejme výsledky. V ohodnocené datové sadě přibyly 4 sloupce:
Máme vytvořenou datovou sadu obsahující jak skutečnou třídu (sloupec class), tak i predikci modelu (sloupec prediction(class)). Zapojme do procesu operátor Evaluation/Performance measurement/Performance. Výsledky:
class
prediction(class)
Evaluation/Performance measurement/Performance
Tyto výsledky (přesnost) jsou ale změřeny na stejných datech, na nichž byl model učen, jsou tedy příliš optimistické. Jak získat lepší odhad prediktivní schopnosti modelu se dozvíme v dalším díle.