====== Výsledky spam filtrů 2016/2017 ====== Spam filtry byly spuštěny na 3 datových sadách, na každé bylo možné získat až 4 body za úspěšnost filtru. Datové sady 2 a 3 byly tento rok změněny. Nová data se ukázala být obtížnější pro klasifikaci, takže jsme zmírnili úrovně kvality filtru potřebné pro získání určitého počtu bodů. Hodnocení probíhalo podle následující tabulky: ^ q (Data 1) ^ q (Data 2 a 3) ^ body ^ | <0, 0.3) | <0, 0.3) | 0 | | <0.3, 0.5) | <0.3, 0.4) | 1 | | <0.5, 0.7) | <0.4, 0.6) | 2 | | <0.7, 0.9) | <0.6, 0.8) | 3 | | <0.9, 1> | <0.8, 1> | 4 | ===== Datová sada 1 ===== První sada byla ta, která byla použita v online testovacím skriptu v upload systému a kterou jste měli k dispozici. Data se dají popsat následovně: | ^ HAM ^ SPAM ^ Celkem ^ Poměr HAM:SPAM ^ ^ Trénovací | 153 | 461 | 614 | 1 : 3 | ^ Testovací | 153 | 461 | 614 | 1 : 3 | [[courses:b4b33rph:cviceni:spam:vysledky:2016:data1|Výsledky 1]] ===== Datová sada 2 ===== Druhá sada dat byla podobně velká a měla shodné rozdělení emailů. Emaily ale byly jiné, než v první sadě. | ^ HAM ^ SPAM ^ Celkem ^ Poměr HAM:SPAM ^ ^ Trénovací | 150 | 450 | 600 | 1 : 3 | ^ Testovací | 150 | 450 | 600 | 1 : 3 | [[courses:b4b33rph:cviceni:spam:vysledky:2016:data2|Výsledky 2]] ===== Datová sada 3 ===== Třetí data se lišila hlavně v trénovací sadě. Byla větší, než u prvních dvou, a HAMy i SPAMy v ní byly zastoupeny rovnoměrně. | ^ HAM ^ SPAM ^ Celkem ^ Poměr HAM:SPAM ^ ^ Trénovací | 1500 | 1500 | 3000 | 1 : 1 | ^ Testovací | 200 | 600 | 800 | 1 : 3 | [[courses:b4b33rph:cviceni:spam:vysledky:2016:data3|Výsledky 3]] ===== Celkové výsledky ===== [[courses:b4b33rph:cviceni:spam:vysledky:2016:celkem|Celkové výsledky]] **Gratulujeme!**