Warning
This page is located in archive.

Hodnocení a termíny

Stejně jako v celém předmětu RPH se cení především vaše snaha. Pak se nemusíte bát, že byste kvůli této úloze předmět neukončili. Úlohu budeme považovat za splněnou, pokud vyhoví kritériím, která jsou nastavena značně volně.

Rozpis hodnocení spam filtru:

Hodnocený výkon min max poznámka
Odevzdání 1 Termín odevzdání najdete v Upload systému!!!
compute_quality_for_corpus 0 5 Funkce funguje správně (ano/ne).
Odevzdání 2 Termín odevzdání najdete v Upload systému!!!
Filtr běží 4 4 Aplikujeme-li spam filtr na sadu dat, filtr poskytne predikce, nespadne, … Touto částí oceníme vaši schopnost zapsat v Pythonu jakýkoli (alespoň primitivní) spam filtr
Filtr není triviální 0 2 Ocenění snahy o vytvoření alespoň trochu rozumného filtru. Nepatří sem filtry typu “vše je spam”, “vše je OK”, “rozhoduj se náhodně”. Patří sem filtry, které se např. rozhodují podle jednoduchého if-then pravidla.
Složitější filtr 0 2 Např. kombinace více pravidel, …
Filtr se umí učit 0 3 (+ plný počet bodů z předchozích kategorií hodnocení filtru) Filtr mění svůj model na základě vlastností trénovací sady dat.
Čistota kódu 0 4 Vhodná jména objektů, funkcí, proměnných, konstant. Přehlednost, čitelnost, komentáře.
Kvalita filtru 0 12 Podle dosažených výsledků na 3 datových sadách, 0-4 body za každou. Na každé se ohodnotí míra kvality filtru, podle níž se určí počet získaných bodů (viz níže).
Celkem 4 32

Hodnocení kvality filtru

“Kvalita filtru”, podle níž budou přidělovány body, se bude počítat podle následujícího vzorce:

<latex>

q = \frac{TP + TN}{TP + TN + 10 \cdot FP + FN}.

</latex>

Pozitivní případy (P) zde odpovídají mailům, které filtr označil jako spam, negativní (N) pak těm, které filtr označil jako korektní emaily. FP tedy označuje počet korektních emailů označených jako spam, FN označuje počet spamů označených jako korektní email. Zdůrazňujeme, že hodnoty TP, FP, TN, FN ve výše uvedeném vzorci představují počty případů, nikoli procenta.

Podle kvality filtru změřené na příslušné datové sadě bude následně udělen počet bodů:

q body
<0, 0.3) 0
<0.3, 0.5) 1
<0.5, 0.7) 2
<0.7, 0.9) 3
<0.9, 1> 4
courses/a4b99rph/cviceni/spam/hodnoceni.txt · Last modified: 2014/09/19 13:54 by xposik