Spam filtry byly spuštěny na 3 datových sadách, na každé bylo možné získat až 4 body za úspěšnost filtru. Datové sady 2 a 3 byly tento rok změněny. Nová data se ukázala být obtížnější pro klasifikaci, takže jsme zmírnili úrovně kvality filtru potřebné pro získání určitého počtu bodů. Hodnocení probíhalo podle následující tabulky:
q (Data 1) | q (Data 2 a 3) | body |
---|---|---|
<0, 0.3) | <0, 0.3) | 0 |
<0.3, 0.5) | <0.3, 0.4) | 1 |
<0.5, 0.7) | <0.4, 0.6) | 2 |
<0.7, 0.9) | <0.6, 0.8) | 3 |
<0.9, 1> | <0.8, 1> | 4 |
První sada byla ta, která byla použita v online testovacím skriptu v upload systému a kterou jste měli k dispozici. Data se dají popsat následovně:
HAM | SPAM | Celkem | Poměr HAM:SPAM | |
---|---|---|---|---|
Trénovací | 153 | 461 | 614 | 1 : 3 |
Testovací | 153 | 461 | 614 | 1 : 3 |
Druhá sada dat byla podobně velká a měla shodné rozdělení emailů. Emaily ale byly jiné, než v první sadě.
HAM | SPAM | Celkem | Poměr HAM:SPAM | |
---|---|---|---|---|
Trénovací | 150 | 450 | 600 | 1 : 3 |
Testovací | 150 | 450 | 600 | 1 : 3 |
Třetí data se lišila hlavně v trénovací sadě. Byla větší, než u prvních dvou, a HAMy i SPAMy v ní byly zastoupeny rovnoměrně.
HAM | SPAM | Celkem | Poměr HAM:SPAM | |
---|---|---|---|---|
Trénovací | 1500 | 1500 | 3000 | 1 : 1 |
Testovací | 200 | 600 | 800 | 1 : 3 |
Gratulujeme!