Spam I

Dotazy a odpovědi
Testík
Vyjasnění a diskuse zadání úlohy Spam filter
Nastavení projektu pro Spam filter v PyCharmu
Spouštění testů v PyCharmu
Vysvětlení a demonstrace testů k úloze Spam filter
Hádanka
Příkaz yield

Dotazy a odpovědi

Kolik lidí se pokusilo implementovat funkci read_classification_from_file()? Kolik lidí si myslí, že ji i úspěšně dokončilo?
Na jaké problémy jste při práci se soubory narazili?
Připomenutí: proč je dobré používat parametr encoding ve volání open(filename, mode, encoding='utf-8')?

Úvod do úlohy Spam filtr

Vyjasnění diskuze o filtrování spamu z přednášky, odpovědi na otázky
Data a jejich formát
Analýza a dekompozice problému na jednotlivé funkční bloky

Založení projektu v PyCharm

Používáte-li k vývoji v Pythonu prostředí PyCharm, doporučujeme vám vytvořit si pro řešení úlohy projekt. PyCharm tak bude schopen lépe analyzovat váš kód a udržovat stav vaší práce mezi jednotlivými sezeními.

Při vytváření projektu dejte pozor, abyste vybrali správnou verzi interpreteru! Na cvičeních používáme Python 3 (ideálně 3.4, ale může být i 3.2).

Tutoriály k vytváření projektů v PyCharm na stránkách JetBrains:

Vytváření projektů od nuly

Vytvoření projektu z existujících zdrojových kódů

Stručný postup:

Udělejte jednu z následujících věcí:

Na uvítací obrazovce v sekci Quick start vyberte možnost Create new project.

V nabídce File zvolte položku New project.

V dialogu, který se objevil, vyplňte

název projektu (Project name), např. “spam”,

adresář (Location), kde projekt chcete mít, např. “/skola/rph”,

typ projektu (Project type) nastavte na Empty project a

uveďte cestu k vašemu interpretu Pythonu (Interpreter), pokud ji tam nemáte již vyplněnou. Dejte pozor na správnou verzi!

Klikněte na OK, v následujícím okně vyberte, zda chcete projekt otevřít ve stávajícím nebo v novém okně a opět klikněte na OK. Tím by se měl vytvořit adresář projektu (v našem případě např. /skola/rph/spam a uvnitř něj další (skrytý) adresář .idea, kam si PyCharm ukládá různá nastavení (ale s tímto adresářem byste prakticky neměli přijít do styku).

Soubory do projektu můžete vložit v zásadě dvěma způsoby:

Vytvoříte nový soubor uvnitř projektu, např.

pomocí menu File > New …, nebo

volbou položky New z kontextového menu po kliknutí pravým tlačítkem na název projektu v nástroji Project.

Existující soubory prostě nahrajete do adresáře projektu.

Stáhněte si testy ke kroku 1 a testy ke kroku 2 a rozbalte je do adresáře projektu (přidejte je do projektu). Měli byste soubory s testy vidět v okně nástroje Project.

2014/10/22 09:43 · xposik

Spouštění skriptů v PyCharm

Existuje celá řada možností, jak skript/program spustit. Každá se hodí na něco jiného, má své výhody a nevýhody.

Spouštění v Python shellu

Spustí skript, jako byste jej řádek po řádku napsali do konzole Pythonu:

Otevřete skript v editoru.

Označte celý text (CTRL-A).

Klikněte pravým tlačítkem na výběr a z kontextové nabídky vyberte Execute Selection in Console (Alt-Shift-E).

Je samozřejmě možné postup provést jen pro část skriptu.

Konfigurace pro běh a ladění

Run/Debug Configurations:

Skripty/programy/aplikace se v PyCharmu obvykle spouštějí pomocí nástroje Run, který lze vyvolat na mnoha místech PyCharmu. Nejdřív si ale pojďme říct, co vlastně znamená “spustit skript/program/aplikaci”.

Zdrojové kódy vašeho projektu (ať už je to jediný soubor nebo tisíce souborů v mnoha adresářích) se dají “použít” v mnoha “módech”. Typický jednoduchý skript v Pythonu bude obsahovat kód, dokumentaci ve formě komentářů a třeba doctesty (opět uvnitř komentářů). S takovým skriptem můžete chtít dělat různé věci:

spustit ho (třeba s různými argumenty),

spustit nástroj, který z dokumentace uvnitř komentářů vytvoří HTML nebo PDF dokumentaci,

spustit doctesty, které se nacházejí uvnitř komentářů,

…

Pro každý takový “mód použití” vašeho projektu je třeba v PyCharmu nadefinovat vlastní konfiguraci pro běh a ladění (Run/Debug configuration), viz odkazy v rámečku níže.

Tutoriály k spouštění/ladění skriptů v PyCharm na stránkách JetBrains:

Vytváření a úpravy konfigurací pro běh a ladění

Vytváření a ukládání //dočasných// konfigurací pro běh a ladění

PyCharm se pro každý skript/soubor snaží odhadnout výchozí konfiguraci (která může a nemusí být tím, co se souborem skutečně chcete dělat). Pokud se PyCharmu jeho odhad nepovede, musíte konfiguraci změnit ručně, viz návody v rámečku. Všechny dostupné konfigurace (výchozí i ručně specifikované) najdete v drop-down boxu v nástrojové liště (vedle zeleného tlačítka Run).

Spouštění pomocí nástroje Run

Skript spustí v nové instanci Pythonu:

Možnost 1:

V drop-down boxu vyberte příslušnou konfiguraci (budete-li ji používat opakovaně, tento krok znovu samozřejmě provádět nemusíte).

Stiskněte zelené tlačítko Run (nebo použijte klávesovou zkratku Shift-F10).

Možnost 2:

V menu Run zvolte položku Run… (Alt-Shift-F10).

V následném okně vyberte konfiguraci, kterou chcete spustit.

2014/10/22 09:43 · xposik

Spouštění testů v PyCharm

Opět existuje několik způsobů, jak testy spustit. Vyberte si ten, který vám nejvíc vyhovuje.

Spuštění testů z jednoho modulu v Python shellu
Spustí testy v jednom modulu:
Pokud chcete modul testovat tímto způsobem, je třeba mít přímo v kódu modulu zajištěno vykonání testů, tedy např:
if __name__=="__main__":
    import doctest
    doctest.testmod()
v případě doctestů, nebo
if __name__=="__main__":
    import unittest
    unittest.main()
v případě použití modulu unittest. Postupujte jako v případě spuštění normálního skriptu, viz předchozí sekce (označte celý kód a nechte jej ohodnotit v Python konzoli).
Spuštění testů jednoho modulu v nástroji Test

Spustí testy v jednom modulu.

Otevřete modul s testy v editoru. PyCharm pravděpodobně správně odhalí, že soubor obsahuje unittesty a vytvoří výchozí konfiguraci.

Proveďte jednu z následujících akci:

Klikněte pravým tlačítkem na název souboru v okně Project. Z kontextové nabídky vyberte možnost Run 'Unittests in …'

V drop-down menu v nástrojové liště vyberte Unittests in … a klikněte na zelené tlačítko Run.

Z menu Run vyberte položku Run … a vyberte konfiguraci Unittest in …

Výsledky testů byste měli vidět v přehledné stromové struktuře v okně nástroje Run.

Pokud PyCharm z nějakého důvodu nenabízí výchozí konfiguraci Unittests in …, můžete si ji ručně nadefinovat, viz postup níže.

Spuštění všech testů v adresáři (projektu) najednou v nástroji Test

Spustí všechny testy.

Pro tuto možnost je nutné nadefinovat si vlastní konfiguraci pro běh a ladění.

V menu Run vyberte položku Edit Configurations ….

V otevřeném dialogovém okně Run/Debug configurations klikněte na tlačítko zelené plus.

V nabídce, která se objeví, vyberte Python tests > Unittests. Vytvoří se prázdná konfigurace, kterou je třeba vyplnit v pravé části dialogu.

Vložte jméno konfigurace do políčka Name, např. “All tests”.

Na záložce Configuration, ve skupině Unittests, vyberte pro položku Tests možnost All in folder.

Do položky Folder vložte cestu k vašim souborům s testy, tedy např. “/skola/rph/spam”.

Ostatní nastavení by nemělo být třeba měnit. Po kliknutí na OK by měla být konfigurace dokončena a připravena k použití.

Spusťte konfiguraci. V okně s výsledky byste měli vidět, že se spustily testy ze všech souborů “test_*.py”.

2014/10/22 09:43 · xposik

Demonstrace testů k úloze Spam filter

http://docs.python.org/py3k/library/unittest.html

Testy se snažíme psát srozumitelně, abyste jejich studiem něco získali.
Mnoho pomocných funkcí, které u testů jsou, tvoří také zajímavý studijní materiál.
Uvědomte si, že testy velmi často dělají opak toho, co má dělat váš kód: když má vaše funkce načítat data ze souboru, musí je jiná funkce v testu nejprve vytvořit. Zkuste zde hledat inspiraci k řešení vlastních problémů!

Testy ke kroku 1

Stáhněte si testy ke kroku 1 úlohy Spam filtr. Archiv rozbalte do adresáře, kde vyvíjíte spam filter.

Zkuste si zdrojový kód testů sami přečíst. Poznamenejte si nejasnosti. Diskutujte o nich se cvičícím.
Zkuste testy spustit.
Co vám říká výstup? Jaký další (co nejmenší) krok byste udělali na základě výstupu unit testu, abyste se posunuli dál?
Zkuste tento krok rovnou udělat. Jak se změnil výstup unit testu? Jak další krok byste udělali?
…

Testy ke kroku 2

Zopakujte (podle potřeby) výše uvedené i pro testy ke kroku 2.

Příkaz ''yield''

Co jsou “iterables”?
- Iterable je každý objekt, jehož prvky se dají procházet cyklem for. Seznamy, n-tice, řetězce, soubory, atd.
Co je to generátor?
- Generátor je také “iterable”, ale lze ho projít jen jednou.
- Generuje jednotlivé prvky “za pochodu”, jeden po druhém. Není třeba mít všechny prvky v paměti.
Co je yield?
- yield je klíčové slovo, které funguje podobně jako return, ale vrací generátor.
- Zavoláte-li funkci, která obsahuje yield, kód uvnitř funkce se nespustí! Funkce pouze vrátí generátor.
- Vrácený generátor má metodu next (kterou volá cyklus for, aniž byste o tom věděli).
- Při prvním volání metody next se funkce spustí, dokud nenarazí na první yield. Tam se její běh přeruší (ovšem generátor si pamatuje její stav) a argument příkazu yield je vrácen volajícímu kódu.
- Při každém dalším volání metody next se funkce spustí od předchozího yield, dokud nenarazí na další yield nebo na konec funkce.

Programovací úlohy

Dokončete krok 1 úlohy Spam filtr, tj. funkci read_classification_from_file() tak, aby procházela unit testem.
Začněte pracovat na kroku 2 úlohy Spam filtr, tj. na třídě Corpus a její metodě emails().

Domácí úkol

Programování

Pokud se vám to nepodařilo už na cvičení, dokončete:

krok 1 úlohy Spam filtr, tj. funkci read_classification_from_file() tak, aby procházela testem.
krok 2 úlohy Spam filtr, tj. třídu Corpus a její metodu emails() tak, aby procházela testem.

Příprava

Příprava na krok 3 úlohy spam filtr:

Prostudujte si:

V článku Binary Classification najděte a pochopte význam zkratek TP, FP, TN, FN.

Na kus papíru napište:

co podle vás tyto zkratky znamenají pro problém filtrování spamu

co budeme potřebovat, abychom tyto statistiky mohli napočítat

2010/09/14 15:03

Příprava na krok 4 úlohy spam filtr:

Rozmyslete si a načrtněte na kus papíru:

Jakým způsobem se spam filtr vlastně používá?

Jaký je z hlediska implementace rozdíl mezi učicím se filtrem a filtrem, který se učit neumí?

Existuje nějaká část, kterou budou mít všechny spam filtry společnou?

Je lepší realizovat spam filtr jako funkci nebo jako objekt s vlastnostmi a metodami?

Jaké jsou minimální požadavky na tuto realizaci? Co všechno by měla umět? Jaké musí mít vstupy a co musí být jejím výstupem?

2010/09/14 15:04

Table of Contents