Search
Na této stránce jsou popsány požadavky, jimž musíte vyhovět! Jejich nedodržení by mohlo vést k tomu, že vaše řešení úlohy nebude uznáno jako platné!
Individuální úloha!
Účelem prvního kontrolního bodu je zajistit, že všichni máte k dispozici funkci, která správně ohodnotí kvalitu filtru. Předmětem testování v této fázi bude pouze funkce compute_quality_for_corpus() (a kód, který tato funkce využívá), jejíž detailnější specifikaci najdete v kroku 3.
compute_quality_for_corpus()
“Kvalita filtru”, podle níž budou přidělovány body, se bude počítat podle následujícího vzorce:
<latex>
$$q = \frac{TP + TN}{TP + TN + 10 \cdot FP + FN}$$
</latex>
Pozitivní případy (P) zde odpovídají mailům, které filtr označil jako spam, negativní (N) pak těm, které filtr označil jako korektní emaily. FP tedy označuje počet korektních emailů označených jako spam, FN označuje počet spamů označených jako korektní email. Zdůrazňujeme, že hodnoty TP, FP, TN, FN ve výše uvedeném vzorci představují počty případů, nikoli procenta.
quality.py
confmat.py
utils.py
Týmová úloha!
Cílem druhého kontrolního bodu je otestovat a ohodnotit vámi vytvořený filtr. Předmětem testování bude třída MyFilter, jejíž detailnější specifikace najdete v kroku 6.
MyFilter
__init__()
train()
test()
filter.py
basefilter.py
BaseFilter
corpus.py
trainingcorpus.py
TrainingCorpus
Corpus
read_classsification_from_file
quality
confmat
V této úloze je vaším úkolem splnit krok 7, tj. vytvořit report a prezentaci k vašemu Spam filtru.
Budete odevzdávat ZIP archiv s