Po tomto cvičení student
yield.
yield
count_chars_in_string() a count_chars_in_file()?
read_classification_from_file()? Kolik lidí si myslí, že ji i úspěšně dokončilo?
encoding ve volání open(filename, mode, encoding='utf-8')?
Zadání 4. testíku se dozvíte na cvičení.
Zadání hádanky se dozvíte na cvičení.
Druhá část úlohy Spam filtr je týmová. Do příštího týdne vyplňte
a dejte nám tak vědět, zda tým už máte nebo si někoho najdete sami, zda byste chtěli, abychom vám někoho přidělili, nebo zda máte k týmové práci takový odpor, že opravdu chcete úlohu řešit sami.
Pokud stále narážíte na problémy se zakládáním projektů, spouštěním skriptů, či testů, zkuste si přečíst následující informace:
http://docs.python.org/py3k/library/unittest.html
Stáhněte si testy ke kroku 1 úlohy Spam filtr. Archiv rozbalte do adresáře, kde vyvíjíte spam filter.
Zopakujte (podle potřeby) výše uvedené i pro testy ke kroku 2.
read_classification_from_file() tak, aby procházela testy.
Vyplňte dotazník ohledně složení týmů pro Spam filtr, pokud jste to ještě neudělali.
Pokud se vám to nepodařilo už na cvičení, dokončete:
read_classification_from_file() tak, aby procházela testy.
Příprava na krok 3 úlohy spam filtr:
Prostudujte si:
V článku Binary Classification najděte a pochopte význam zkratek TP, FP, TN, FN.Na kus papíru napište:
co podle vás tyto zkratky znamenají pro problém filtrování spamu co budeme potřebovat, abychom tyto statistiky mohli napočítat
Příprava na krok 4 úlohy spam filtr:
Rozmyslete si a načrtněte na kus papíru:
Jakým způsobem se spam filtr vlastně používá? Jaký je z hlediska implementace rozdíl mezi učicím se filtrem a filtrem, který se učit neumí? Existuje nějaká část, kterou budou mít všechny spam filtry společnou? Je lepší realizovat spam filtr jako funkci nebo jako objekt s vlastnostmi a metodami? Jaké jsou minimální požadavky na tuto realizaci? Co všechno by měla umět? Jaké musí mít vstupy a co musí být jejím výstupem?