1. semestrální úloha

Způsob vypracování

Hodnocená část semestrální práce bude mít formu reportu. Report se snažte vypracovat ve formě vědeckého článku, t.j. použijte strukturu obvyklou u věděckých článků. K dispozici jsou 2 šablony v IEEE 2-sloupcovém formátu:

Pište stručně, ale nevynechte nic důležitého (viz bod Hodnocení níže). IEEE formát je značně “hutný”, vejdtete se na 2 až 3 strany, a to včetně grafů.

Hodnocení

Jak budeme report hodnotit?

0 až 6 b. Rozsah práce: Byly splněny předespané úkoly?
0 až 5 b. Validita a reprodukovatelnost výsledků: Jsou výsledky správně? Může je někdo jiný zopakovat jen na základě informací uvedených v reportu? Jsou specifikovány hodnoty všech důležitých parametrů použitých metod?
0 až 5 b. Interpretace výsledků: Dělá student správné závěry na základě prezentovaných výsledků? Pokouší se o to vůbec?
0 až 4 b. Kvalita vypracování: Jazyková správnost, gramatické chyby, překlepy, popisy os grafů, popisy grafů a tabulek, v textu uvedené odkazy do seznamu literatury, …

Bonusy (navíc k předchozím 20 b.):

až 2 b. za vypracování v angličtině (dejte ovšem pozor, aby bylo angličtině rozumět)
1 b. za použití LaTeXu

Odevzdání

Report s vypracováním semestrální práce odevzdávejte do upload systému.

ve formátu PDF (ať už jste jej připravili ve Wordu nebo v LaTeXu)
do 2. dubna. Platný termín je ovšem vždy pouze v upload systému!!!

Pozdní odevzdání bude penalizováno -4 b. za každý načatý týden prodlení!!!

Data

Datová sada: Credit-G

Popis dat

Datová sada obsahuje údaje o žadatelích o úvěr a o tom, zda jim nakonec úvěr byl přidělen. Mezi údaji najdete atributy, jako je třeba výše požadovaného úvěru, stálost zaměstnání, počet závislých osob, stav splácení jiných úvěrů, apod. Cílovým atributem je rozhodnutí, zda úvěr byl či nebyl přidělen.

Specifikace úkolů

Průzkum a předzpracování dat

V tomto bodě pracujte alespoň se třemi atributy, které vám byly určeny. Samozřejmě se nemusíte omezovat jen na ně.

Proveďte základní průzkum proměnných:
- Pro spojité atributy nalezněte průměr, medián, minimum, maximum a směrodatnou odchylku pro zvolené atributy.
- Pro nominální atributy, nalezněte alespoň nejčastější a nejméně častou hodnotu.
Zkonstruujte pro tyto atributy histogramy, nebo krabicový (kvartilový) graf (zvolte takový typ grafu, který je podle vás nejnázornější). Je možné na základě těchto grafů nalézt nějaké odlehlé hodnoty (outliers)? Co s nimi uděláte?
Existují vztahy (korelace)
- mezi těmito atributy vzájemně
- a mezi atributy a závislou veličinou?

Najdete-li nějaké významné vztahy (korelace) nebo odlehlé hodnoty i v jiných atributech, můžete je samozřejmě popsat také. Přidělené 3 atributy jsou myšleny jako nutné minimum pro tuto část úlohy.

Strojové učení

V tomto bodě pracujte opět s celou datovou sadou, tj. se všemi atributy.

Vyberte si alespoň 3 metody strojového učení a najděte co nejlepší hodnoty jejich parametrů. To může pro jednotlivé modely zanhrnovat i selekci nejvhodnějších proměnných.
Pro modely s optimálními parametry zkonstruujte křivky učení a porovnejte je.
Pokud to půjde a bude se vám to zdát vhodné, pokuste se výsledky zvolených metod porovnat pomocí dalších grafických technik (ROC křivka).

Rady k vypracování

Do zprávy nemusíte kopírovat zadání. Zpráva by měla mít formu vědeckého článku. V něm se obvykle nedočtete “Zadání bylo takové a takové”, z toho přímo čiší, že to neděláte proto, že vás problém zajímá, ale proto, že to máte za úkol. Přesto by článek měl v úvodu říkat, jaký problém řešíte a proč. Jakou si pro sebe stanovíte motivaci, to už nechám na vás.
Abstrakt by měl být reklamou na článek. Alespoň trochu poučený čtenář by se po přečtení abstraktu měl být schopen rozhodnout, jestli chce číst celý článek nebo ne. Je na vás, abyste ho nalákali. Tj. mělo by být zřejmé, jaký problém řešíte, co je přínosem článku a jaké zajímavé výsledky může čtenář očekávat. To vše velmi stručně (cca 100 slov).
Vědecké články na konci obsahují seznam použitých zdrojů informací a v textu odkazy do tohoto seznamu.
Děláte-li ze zvědavosti nějaké experimenty nad rámec zadání (což je dobře a velmi to chválím), uveďte jejich výsledky do reportu pouze v případě, že vám přijdou něčím zajímavé, že je z nich něco vidět, že se neshodují s vašimi předpoklady či očekáváními. Takové výsledky vám poskytují skvělý materiál k diskusi, k formulaci různých hypotéz, atd.; rozhodně byste se měli pokusit o vysvětlení pozorovaných jevů.

Zhodnocení, časté chyby z minulých let

V reportech se objevovaly některé chyby poměrně často. I když zdaleka ne všechny byly penalizovány bodovou srážkou, ubírají na kvalitě vašich reportů. Zkuste se jich příště vyvarovat.

Chyby:

Pearsonova korelace a nominální atribut. Mnoho z vás si vůbec nedělalo hlavu s tím, že Pearsonova korelace se nedá použít k posouzení souvislosti 2 proměnných, z nichž alespoň jedna je nominální. Pro každé očíslování tříd vám přece korelace vyjde jinak! O tom, jak posoudit souvislost 2 atributů měřených na různých škálách, jsme mluvili na přednášce o selekci proměnných a na cvičeních jste dostali tip, jak to udělat ve Wece.
Odlehlé hodnoty a korelované proměnné. Spousta z vás identifikovala nějaké odlehlé hodnoty a napsala např. “tyto hodnoty by se měly z datové sady odstranit.” Ale udělali jste to skutečně? To už se čtenář v reportu nedočetl. Podobně jste některé vstupy s vysokou korelací identifikovali jako redundantní a napsali např. “redundantní proměnné je možné z datové sady odstranit.” Opět, udělali jste to? Nejednoznačná vyjádření připouštějící i opak navržené akce snižují reprodukovatelnost výsledků.
“Ladění” validačních metod. Někteří z vás se pokusili hledat optimální počet složek u krosvalidace, příp. optimální procentuální rozdělení dat na trénovací a testovací. To je chybný postup. Ani si nejsem jistý, čeho tím vlastně dosáhnete: tipoval bych, že najdete nastavení, které nejvíce podhodnocuje skutečnou testovací chybu, ale rozhodně to nesouvisí s optimálním nastavením modelu. Nejpřesnější měření, které můžete udělat, by bylo použít Leave-one-out krosvalidaci.

Usnadněte čtenáři život:

Název a abstrakt. Obojí by mělo mít úzký vztah k článku. Mnohdy to jsou jediné informace, které poteciální čtenář využije k rozhodnutí, zda si článek přečte nebo ne. Název článku by měl popisovat hlavní téma článku. Název typu “Strojové učení” není dobrý, váš článek se nazabývá obecně strojovým učením. Pokud by tomu tak mělo být, byl by příliš krátký a nedostatečný. Lepší název je např. “Klasifikace vozidel na základě jejich siluety”. O abstraktu jsem se již zmiňoval výše, přesto někteří stále máte problém napsat vhodný abstrakt.
Struktura článku. Někteří z vás se otrocky drželi naznačené struktury článku (Úvod, Způsob řešení, Experimenty, Diskuse). A jelikož se v úloze vyskytovaly 2 podúlohy, v každé ze zmíněných sekcí jste vytvořili 2 podsekce (Analýza dat, Strojové učení). Tímto uspořádáním čtenáře nutíte, aby neustále přepínal mezi dvěma odlišnými úlohami, a článek se strašně špatně čte. Lepší uspořádání je věnovat se nejprve analýze dat, v níž popíšete způsob řešení, experimenty i okomentujete výsledky, a následně přejdete ke strojovému učení, kde navážete na analýzu dat, popíšete způsob řešení, experimenty a okomentujete výsledky.
Text v obrázcích. Velmi často jsem se setkal s tím, že názvy os a stupnice na osách byly vyvedeny v nečitelně malém písmu. Čtenář by neměl mít problém údaje v obrázcích přečíst, písmo by mělo být podobně velké jako u okolního textu.
Odkazy v textu. Umísťujte do textu číselné odkazy na tabulky a grafy. Bude jednoznačné, o čem právě v textu hovoříte.
Přebytečné výsledky. Nedávejte do článku výsledky, které v textu nijak nekomentujete. Tabulky a grafy by měly pouze dokládat to, o čem hovoříte v hlavním textu. Nedávejte do článku výsledky jen proto, abyste ukázali, co všechno jste vyzkoušeli při práci na úloze. Nestojí-li vám výsledky za komentář, pak pravděpodobně nebudou ani čtenáři stát za přečtení/shlédnutí. Mluvíte-li v textu pouze o modelech A a B, čtenář bude zmaten, objeví-li v grafech i křivky pro modely C, D a E. Bude se v textu vracet, aby se ujistil, že nic nevynechal.
Prezentace výsledků. Zkuste příště výsledky prezentovat způsobem, který bude maximálně užitečný pro čtenáře:
1. Je pro čtenáře lepší prezentovat každou křivku učení ve zvláštním grafu (s jiným rozsahem osy y) nebo v jednom grafu se společnou osou y, kde ihned jasně vidí, který algoritmus dosahuje lepších výsledků?
2. Je pro čtenáře lepší prezentovat korelační koeficienty v popisku několika grafů rozházených na různých místech reportu, nebo je shrnout do jedné přehledné tabulky na jednom místě?
3. Je pro čtenáře lepší vidět přímo v histogramu (v obrázku), ke které proměnné se histogram váže, nebo to uvést do textu popisku obrázku nebo (ještě hůř) do textu článku?
4. …

Table of Contents