Warning
This page is located in archive.

TEST 11

  1. (0.5 b) Jaké problémy může způsobovat špatně zvolené měřítko os grafu? Popiště, jak byste tuto “techniku” použili (zneužili) pro zkreslení výsledků dat pro váš prospěch.
  2. (0.5 b) Pro jaké typy dat volíme vizualizaci pomocí (a) koláčového grafu, (b) X-Y grafu?
  3. (0.5 b) Způsoby, jak vizualizovat 4D data, tj. máme k dispozici 4 atributy.
  4. (0.5 b) Který z následujících histogramů zobrazujících data ze stejného zdroje je nejvhodnější a proč?
  5. (0.5 b) Jaký je rozdíl mezi baggingem a AdaBoostem?

Cvičení 9 - Asociační pravidla

V dnešním cvičení využijeme datový soubor weather.csv. Pro hledání asociačních pravidel v R budeme potřebovat balíček arules.

Hledání častých položek

  • Co je to podpora (support) množiny položek?
  • Co je množina častých položek a jak je definována?
  • Jak byste definovali “apriori vlastnost podmnožin”?
  • Vysvětlete, jak funguje apriori algoritmus.

Příklad: Hráči chodí hrát tenis, ale hrají pouze za příznivého počasí. Příklady jejich rozhodnutí jsou v následující tabulce. Atributy jsou outlook, temperature, humidity, windy a rozhodnutí je ve sloupečku play.

outlook temperature humidity windy play
sunny hot high false no
sunny hot high true no
overcast hot high false yes
rainy mild high false yes
rainy cool normal false yes
rainy cool normal true no
overcast cool normal true yes
sunny mild high false no
sunny cool normal false yes
rainy mild normal false yes
sunny mild normal true yes
overcast mild high true yes
overcast hot normal false yes
rainy mild high true no
Úkoly
  1. Nalezněte pomocí apriori algoritmu časté skupiny položek (target = “frequent itemsets”) s podporou větší než 0.22. Kolik takových skupin je?
  2. Zvolte několik hodnot parametru “supp” a zjistěte, kolik množin častých položek s danou podporou najdete.

sets <- apriori(weather,
                 parameter = list(minlen=1, supp = 0.4, target = "frequent itemsets"))
summary(sets)
inspect(sets)

Asociační pravidla

  • Co je čtyřpolní tabulka?
  • Jak je definována spolehlivost (confidence)?
  • Popište proces generování asociačních pravidel.
Úkoly
  1. Nalezněte asociační pravidla s podporou supp>0.22 a se spolehlivostí conf=1.
  2. Zkuste najít asociační pravidla i pro jiná nastavení spolehlivosti (confidence).

rules <- apriori(weather,
                 parameter = list(minlen=2, supp = 0.1, conf = 0.5, target = "rules"),
                 appearance = list(rhs=c("play=no", "play=yes"), default="lhs"))
summary(rules)
inspect(rules[1:10])

Vizualizace pravidel

Pro vizualizaci pravidel budeme potřebovat balíčky vcd, arulesViz

Vizualizace nalezených pravidel:

rules <- apriori(weather,
                 parameter = list(minlen=2, supp = 0.2, conf = 0, target = "rules"),
                 appearance = list(rhs=c("play=no", "play=yes"), default="lhs")                 
                )
plot(rules, interactive=TRUE)
plot(rules, method="grouped")
plot(rules, method="graph")
plot(rules, method="paracoord")

Vizualizace krátkých pravidel pomocí metody Mosaic Plot (mosaic nebo mosaicplot)

mosaicplot(~ play, data=weather, main = "Tennis", shade = FALSE, legend = FALSE)
mosaicplot(~ outlook + play, data=weather, main = "Tennis", shade = FALSE, legend = FALSE)
mosaicplot(~ play+humidity, data=weather, main = "Tennis", shade = FALSE, legend = FALSE)
mosaicplot(~ outlook + humidity + play, data=weather, main = "Tennis", shade = FALSE, legend = FALSE)

Vhodná data pro další pokusy s pravidly: mushroom

Najděte pravidla, kdy jsou houby jedlé a určitě se neotrávíte.

Více informací na UCI repository mushroom

courses/a6m33dvz/cviceni/13-asoc.txt · Last modified: 2019/01/03 12:56 by nemymila