Úvod do RapidMineru

RapidMiner je analytický software, v němž se dají “kreslit” analytické procesy ve formě orientovaného grafu. Uzly grafu jsou operátory, které provádějí nějaké operace s daty (nahrávají data z disku, transformují data, vytvářejí z dat model, produkují reporty, atd.). Hrany grafu spojující jednotlivé operátory představují cestu, kudy data tečou. Po různých hranách tečou různá data - mohou jimi být zdrojová analyzovaná data, ale i výsledky analýz, vytvořené modely, hodnocení modelů, atd.

Nejjednodušší proces

Stáhněte si soubor iris.csv obsahující 4 fyzické charakteristiky 150 květů 3 druhů kosatců. Úkoly:

Naimportujte soubor do repozitáře RapidMineru.
- Označte správně řádek se jmény proměnných.
- Zvolte správně typ proměnných.
Přetáhněte soubor z repozitáře do okna procesu s spusťte proces.

Průzkum výsledků procesu ve výsledkové perspektivě (result perspective):

Metadata view: Role, Type, Statistics, Range, Missings, …
Data view: Filter
Plot view:
- Scatter, Scatter multiple, Scatter matrix
- Parallel, Deviation
- Distribution, Histogram, Histogram color
- Quartile, Quartile color, Quartile color matrix - užitečné pro první náhled na data

První analýza

Pokusme se na datech o kosatcích naučit stromový model. Ze záložky Operators vložte do procesu operátor Modeling/Classification and Regression/Tree Induction/Decision Tree. Spusťte proces a prozkoumejte výsledky pro Decision Tree:

Graph view:
- Jak je zaznamenána velikost listů (kolik trénovacích dat do něj spadne)?
- Jak je zaznamenána čistota listu (jaký je podíl jednotlivých tříd)?
Text view:
- Jak jsou zaznamenány výše zmíněné údaje v textovém výpisu?
Přijde vám na naučeném stromě něco zvláštního?
- Jaké atributy používá v jednotlivých testech?

Jak získat predikce modelu pro trénovací data?

Nyní máme vytvořený model. Jakým způsobem jej ale můžeme použít k ohodnocení dat? Zapojme za operátor DecisionTree operátor Modeling/Model Application/Apply model. Tento operátor očekává

na portu mod model, který má aplikovat (v našem případě je to Decision Tree),
na portu unl (unlabeled) neohodnocenou datovou sadu, kterou má modelem ohodnotit.

Použijme pro jednoduchost znovu trénovací data:

Spojme výstupní port operátoru Retrieve se vstupním portem unl operátoru Apply model.
Protože z výstupního portu operátoru Retrieve už jedna hrana vede, RapidMiner nám nabízí možná řešení. Zvolme Insert I/O multipliers as needed.
Spojme výstupní port lab (labeled, ohodnocená data) operátoru Apply model s výstupním portem celého procesu.

Spusťme proces a prozkoumejme výsledky. V ohodnocené datové sadě přibyly 4 sloupce:

3 sloupce s důvěrou (confidence) v jednotlivé třídy a
1 sloupec s predikcí modelu.

Jak vyčíslit přesnost modelu?

Máme vytvořenou datovou sadu obsahující jak skutečnou třídu (sloupec class), tak i predikci modelu (sloupec prediction(class)). Zapojme do procesu operátor Evaluation/Performance measurement/Performance. Výsledky:

Vidíme vysokou přesnost klasifikace trénovacích dat!
Podrobněji jsou výsledky vyjádřeny maticí záměn.

Tyto výsledky (přesnost) jsou ale změřeny na stejných datech, na nichž byl model učen, jsou tedy příliš optimistické. Jak získat lepší odhad prediktivní schopnosti modelu se dozvíme v dalším díle.

Table of Contents

Úvod do RapidMineru

Nejjednodušší proces

První analýza

Jak získat predikce modelu pro trénovací data?

Jak vyčíslit přesnost modelu?