Výsledky spam filtrů 2016/2017

Spam filtry byly spuštěny na 3 datových sadách, na každé bylo možné získat až 4 body za úspěšnost filtru. Datové sady 2 a 3 byly tento rok změněny. Nová data se ukázala být obtížnější pro klasifikaci, takže jsme zmírnili úrovně kvality filtru potřebné pro získání určitého počtu bodů. Hodnocení probíhalo podle následující tabulky:

q (Data 1) q (Data 2 a 3) body
<0, 0.3) <0, 0.3) 0
<0.3, 0.5) <0.3, 0.4) 1
<0.5, 0.7) <0.4, 0.6) 2
<0.7, 0.9) <0.6, 0.8) 3
<0.9, 1> <0.8, 1> 4

Datová sada 1

První sada byla ta, která byla použita v online testovacím skriptu v upload systému a kterou jste měli k dispozici. Data se dají popsat následovně:

HAM SPAM Celkem Poměr HAM:SPAM
Trénovací 153 461 614 1 : 3
Testovací 153 461 614 1 : 3

Výsledky 1

Datová sada 2

Druhá sada dat byla podobně velká a měla shodné rozdělení emailů. Emaily ale byly jiné, než v první sadě.

HAM SPAM Celkem Poměr HAM:SPAM
Trénovací 150 450 600 1 : 3
Testovací 150 450 600 1 : 3

Výsledky 2

Datová sada 3

Třetí data se lišila hlavně v trénovací sadě. Byla větší, než u prvních dvou, a HAMy i SPAMy v ní byly zastoupeny rovnoměrně.

HAM SPAM Celkem Poměr HAM:SPAM
Trénovací 1500 1500 3000 1 : 1
Testovací 200 600 800 1 : 3

Výsledky 3

Celkové výsledky

Celkové výsledky

Gratulujeme!

courses/b4b33rph/cviceni/spam/vysledky/start.txt · Last modified: 2018/07/17 13:25 (external edit)