Table of Contents

Spam filtr

Úloha bude představena na přednášce přibližně ve 4. týdnu. Filtrování spamu je velmi praktická úloha s velkým reálným dopadem. Současně je to představitel jisté třídy problémů, s nimiž se setkáváme ve strojovém učení, a lze na ní ukázat jejich typické rysy.

Co nám přinese úloha "Spam filtr"?

Některá z uvedených témat budou jen zlehka naťuknuta, ovšem se studenty, kteří se budou cítit nevytížení, lze domluvit individuální přístup.

Cíle

Na úloze chceme ukázat následující:

  1. Pro řešení některých problémů je schopnost učení (adaptace) zcela zásadní.
  2. Automatické učení obsahuje jistá úskalí, na která je třeba dát si pozor.
  3. Existuje celá řada úloh, u nichž je poměrně obtížné posoudit kvalitu řešení.

Formulace úlohy

Vaším prvořadým úkolem v této úloze nebude vytvoření kvalitního spam filtru, jak by se mohlo zdát. Metody, které by vám v tom mohly pomoci, ještě neznáte a dozvíte se o nich v dalším průběhu studia. Vaším úkolem bude především

Data

K dispozici máte 2 sady dat pocházející ze stejného zdroje. Upozorňujeme, že závěrečné hodnocení vašeho spam filtru bude probíhat na jiné sadě dat - váš spam filtr by měl více méně fungovat i na tato nová data.