Search
V této úloze se pracuje s množinou (množinami) emailových zpráv, které mohou být opatřeny meta-informací. Takové množině se často říká korpus. Meta-informacemi budou v našem případě údaje o tom, zda jeden každý email skutečně je nebo není spamem, a o tom, zda spam filtr odhadl, že jeden každý email je spamem.
Máte k dispozici 2 sady dat pocházející ze stejného zdroje.
Domluvme se následovně: emailový korpus pro nás bude představovat
!truth.txt
!prediction.txt
Tyto dva soubory v adresáři být mohou, ale také nemusí:
S obsahem souborů lze pracovat jako s prostým textem, aniž byste předpokládali, že soubory mají nějakou vnitřní strukturu.
Pokud ale chcete jejich strukturu využít (což samozřejmě můžete), vězte, že tyto soubory měly odpovídat normě RFC5322 (příp. RFC2822). V ní se v článku 3.6 píše:
The only required header fields are the origination date field and the originator address field(s). All other header fields are syntactically optional.
Nespoléhejte tedy na to, že všechny emaily budou mít subjekt, nebo další pole!!!
V tomtéž dokumentu se také dočtete:
It is important to note that the header fields are not guaranteed to be in a particular order. They may appear in any order, ...