====== B0M33BDT – Technologie pro velká data ====== Výuka proběhne pravděpodobně prezenčním způsobem, resp. do odvolání. V případě online výuky se učí přes fakultní skupiny MS Teams. Používáme skupinu B0M33BDT+BE0M33BDT.\\ **Aktuální informace:** ==== Důležité odkazy ==== * [[https://www.metacentrum.cz/cs/Sluzby/Hadoop/|výpočetní cluster Metacentrum]] -- v přihlášce uveďte, že patříte do evidenční skupiny CVUT:FEL:B0M33BDT, ev. CVUT:FEL:A4M33BDT * [[https://github.com/stameser/BDT|repozitář s materiály pro cvičení]] ==== Prerekvizity ==== Pro absolvování předmětu je potřeba umět aspoň na základní úrovni: * Linux (manipulace se soubory a adresáři, orientace v adresářové struktuře) * SQL (vytvoření tabulky, jednoduchý SELECT, agregační SELECT, JOIN) * Python * typy list, tuple, dict, set * manipulace s textovými řetězci * flow control (if, while, for) * definice funkce (def), lambda funkce * základní regulární výrazy Doporučujeme si nosit vlastní notebook, který se dokáže připojit na internet. Je potřeba mít aplikace na SCP připojení (např. WinSCP) a na SSH připojení (např. PuTTY). Hodí se i inteligentní textový editor pro psaní skriptů v Pythonu a SQL (Notepad++, PSPad apod.). ==== Rozvrh ==== Výuka probíhá vždy **ve středu**. Prezenční výuka byla plánována do budovy na Karlově náměstí. Po dobu distanční výuky budou odkazy na online výuku uváděny u příslušného týdne. * **lichý týden (L):** * přednáška 9:15–10:45, místnost KN:E-126 * **sudý týden, varianta A (S-A):** * přednáška 9:15–10:45, místnost KN:E-126 * cvičení 2 paralelky 11:00–12:30 a 12:45–14:15, místnost KN:E-307 První týden semestru je lichý, dále viz níže. V případě prezenční výuky je jediným omezením kapacita místnosti na cvičení (22 míst, ostatní pak musí sedět vedle, na židli bez stolečku nebo se k někomu vmáčknout). ==== Sylabus a plán semestru ==== * **1. týden (S, 22. 9.):** Organizace přednášek, klasifikační požadavky. Motivace, přehled, aplikace. * {{ :courses:b0m33bdt:b0m33bdt-1p_2021_en.pdf | prezentace v PDF}} * **2. týden (L, 29. 9.):** * přednáška -- Hadoop, architektura clusteru, {{ :courses:b0m33bdt:b0m33bdt-2021_2p.pdf | prezentace v PDF}}. * cvičení (přesun z min. týdne) -- první kroky na clusteru; **nutno si předem vyřídit přístup na Metacentrum, viz výše**, {{ :courses:b0m33bdt:b0m33bdt-1c.pdf | prezentace v PDF}}. * **3. týden (S, 6. 10.):** * přednáška -- Storage a MapReduce, {{ :courses:b0m33bdt:b0m33bdt-3p_2021_en.pdf | prezentace v PDF}}. * cvičení -- ; **nutno si předem vyřídit přístup na Metacentrum, viz výše**, {{ :courses:b0m33bdt:.pdf | prezentace v PDF}}. * **4. týden (L, 13. 10.):** * přednáška -- Spark basic, {{ :courses:b0m33bdt:b0m33bdt_spark_basic.pdf | prezentace v PDF}}. * **5. týden (S, 20. 10.):** * přednáška -- Architektury a security, {{ :courses:b0m33bdt:b0m33bdt-5p_2021_en_n.pdf | prezentace v PDF}}. * cvičení Spark + průběžný test za 20b. ; * **6. týden (L, 27. 10.):** * přednáška -- Spark advanced, {{ :courses:b0m33bdt:b0m33bdt-6p_2021_spark_advanced.pdf | prezentace v PDF}}. * **7. týden (S, 3. 11.):** * přednáška -- Streaming, {{ :courses:b0m33bdt:b0m33bdt-7p_2021_BD_Streaming_Final.pdf | prezentace v PDF}}. * cvičení + náhradní průběžný test za 20b. ; * **8. týden (L, 10. 11.):** * přednáška -- Kafka, {{ :courses:b0m33bdt:b0m33bdt-8p_kafka_.pdf | prezentace v PDF}}. * **9. týden (S, 17. 11.):** * Statni svatek * **10. týden (L, 24. 11.):** * přednáška -- Cloud general, {{ :courses:b0m33bdt:b0m33bdt-9p_2021_cloud.pptx | prezentace v PPTX}}. * **11. týden (S, 1. 12.):** * přednáška -- Azure, {{ :courses:b0m33bdt:b0m33bdt-11p_2021-azure-components-en.pdf | prezentace v PDF}}. * cvičení - Azure COVID-19 -> **nutné udělat přípravu !!!** - {{ :courses:b0m33bdt:b0m33bdt-11cv-covid-19.pdf | prezentace v PDF}}; * **Možnost získat 4 bonusové body** - Pošlete do příští přednášky kód z notebooku a ukázku grafu z DataBricks. * **12. týden (L, 8. 12.):** * přednáška -- Big Data Science, {{ :courses:b0m33bdt:b0m33bdt-10p_2021.pdf | prezentace v PDF}}. * **13. týden (S, 15. 12.):** * přednáška -- Elastic, {{ :courses:b0m33bdt:bdt_elasticsearch.pdf | prezentace v PDF}}. * cvičení + zápočtový test ; * **14. týden (L, 5. 1.):** * přednáška -- AWS, serverless architektury, {{ :courses:b0m33bdt:b0m33bdt-13p_en.pdf | prezentace v PDF}}. ==== Výsledky ==== Pokud někdo nechce být uveden v tabulce, kontaktujte vyučující. ^ Jméno a příjmení ^ Průběžný test ^ Bonus cvičení ^ Z.test ^ Praktická ^ | Ondřej Maňhal | 14 | | 8.5 | 35.8 | | Maroš Pechník | 7 | 4 | | Martin Vybíralík | 14 | 3.5 | 5 | 29.1 | | Rail Chamidullin *| 19 | | 8 | 38 | | Daniel Groschup | 17 | | 10 | 16 | | Jaroslav Erben | 11 | | | Martin Krupa | 8 | | 5.5 | 18.4 | | Kryštof Woldřich *| 18 | 4 | 7 | 32 | | Marek Landa | 17 | | 8 | 30 | | Martin Jandek *| 9 | | 10 | 34 | | Matěj Suchánek | 10 | 4 | 5 | 37.9 | | Jan Kadlec | 15 | 4 | 5.5 | 27.1 | | Jiří Miroslav Kačena | 12 | | 8 | 34.3 | | Dávid Michal Bulko | 17 | 4 | 7.5 | 33.7 | | Ondřej Kafka | 17 | | | Lukáš Kunt | 13 | 2-pozdě | 7.5 | | | Petr Jeřábek | 12 | 4 | 6 | 32.8 | | Otto Vodvářka | 15 | 4 | 8.5 | 36.4 | | Tomáš Omasta *| 18 | | 8 | 27 | | Petr Švec | 18 | | 6.5 | 31 | | Petr Švagr | 15 | | 6 | 23.8 | | Tommaso Gargiani | 16 | 4 | 9.5 | 32.8 | | Bedřich Schindler | 17 | 4 | 9 | 27 | | Jan Kolovecký | 19 | 4 | 8 | 40 | | Leoš Řeháček | 19 | | 10 | 28 | | Martin Bernát | 16 | | 9 | 31 | | Martin Krutský *| 20 | | 8 | 33 | | Ondřej Mareš | 19 | 4 | 10 | 42.7 | | Sofie Šašorina | 16 | | 8 | 16 | | Adam Forgáč | 12 | 3 | 5.5 | 23.8 | | Jan Neumann | 17 | 4 | 10 | 47.5 | | Zdeněk Kotrlý | 10 | 4 | 8 | 22 | | Marek Nenal | 8 | | 9 | 23 | | Ondřej Pejša | 12 | | | Michaela Weberová | 13 | | 6.5 | 22.3 | | Michal Toman | 13 | 4 | 9 | 30.4 | ==== Klasifikační požadavky (zápočet, zkouška) ==== === Zápočet === Lze jej získat: * Zisk aspoň 30 bodů z 60 možných za průběžný test, domácí úkol a praktický test. * za průběžný test v půli semestru lze získat max. 20 bodů * za test z teorie a praxe na konci semestru lze získat max. 40 bodů * Obsahem praktického testu jsou úlohy na zpracování dat pomocí Hadoopu a jeho technologií. Každý pracuje samostatně, ale je povoleno používat vlastní i internetové podklady: zápisky, vzorové kódy z přednášek i cvičení, Google, Stack Overflow apod. * Praktický test je možné jednou opakovat v opravném termínu podle dohody s vyučujícím. Při opakování se výsledek prvního testu ruší a platí výsledek druhého testu, i kdyby byl horší než u prvního testu. === Zkouška === Má písemnou část za 30 a ústní za 10 bodů. Ústní je nepovinná, ale může vést k nutnosti opakování zkoušky, stejně jako zásadní neznalost z písemné části, která je povinná. Termíny zkoušek budou vypsány v [[https://www.kos.cvut.cz | KOSu]]: * 14.1. - koordinace přes uzavřený Teams kanál, 10 minutový abcd test a následně npovinná ústní Každý termín se dělí na tři časové sloty po 20 minutách, do každého slotu se mohou zapsat 3-4 studenti (počet se řídí počtem zkoušejících, kteří jsou v daný čas k dispozici). ==== Kontakt ==== [[marek.susicky@profinit.eu|Marek Sušický]] ==== Literatura ==== Hadoop: The Definitive Guide, 4th Edition, by Tom White