B0M33BDT – Technologie pro velká data

Výuka proběhne pravděpodobně prezenčním způsobem, resp. do odvolání. V případě online výuky se učí přes fakultní skupiny MS Teams. Používáme skupinu B0M33BDT+BE0M33BDT.

Aktuální informace:

Důležité odkazy

Prerekvizity

Pro absolvování předmětu je potřeba umět aspoň na základní úrovni:

 • Linux (manipulace se soubory a adresáři, orientace v adresářové struktuře)
 • SQL (vytvoření tabulky, jednoduchý SELECT, agregační SELECT, JOIN)
 • Python
  • typy list, tuple, dict, set
  • manipulace s textovými řetězci
  • flow control (if, while, for)
  • definice funkce (def), lambda funkce
 • základní regulární výrazy

Doporučujeme si nosit vlastní notebook, který se dokáže připojit na internet. Je potřeba mít aplikace na SCP připojení (např. WinSCP) a na SSH připojení (např. PuTTY). Hodí se i inteligentní textový editor pro psaní skriptů v Pythonu a SQL (Notepad++, PSPad apod.).

Rozvrh

Výuka probíhá vždy ve středu. Prezenční výuka byla plánována do budovy na Karlově náměstí. Po dobu distanční výuky budou odkazy na online výuku uváděny u příslušného týdne.

 • lichý týden (L):
  • přednáška 9:15–10:45, místnost KN:E-127
 • sudý týden, varianta A (S-A):
  • přednáška 9:15–10:45, místnost KN:E-127
  • cvičení 2 paralelky 11:00–12:30 a 12:45–14:15, místnost KN:E-307

První týden semestru je lichý, dále viz níže. V případě prezenční výuky je jediným omezením kapacita místnosti na cvičení (22 míst, ostatní pak musí sedět vedle, na židli bez stolečku nebo se k někomu vmáčknout).

Sylabus a plán semestru

 • 1. týden (S, 22. 9.): Organizace přednášek, klasifikační požadavky. Motivace, přehled, aplikace.
 • 2. týden (L, 29. 9.):
  • přednáška – Hadoop, architektura clusteru, prezentace v PDF.
  • cvičení (přesun z min. týdne) – první kroky na clusteru; nutno si předem vyřídit přístup na Metacentrum, viz výše, prezentace v PDF.
 • 3. týden (S, 6. 10.):
 • 4. týden (L, 13. 10.):
 • 5. týden (S, 20. 10.):
  • přednáška – Architektury a security, prezentace v PDF.
  • cvičení Spark + průběžný test za 20b. ;
 • 6. týden (L, 27. 10.):
 • 7. týden (S, 3. 11.):
  • přednáška – Streaming, prezentace v PDF.
  • cvičení + náhradní průběžný test za 20b. ;
 • 8. týden (L, 10. 11.):
 • 9. týden (S, 17. 11.):
  • Statni svatek
 • 10. týden (L, 24. 11.):
 • 11. týden (S, 1. 12.):
  • přednáška – Azure, prezentace v PDF.
  • cvičení - Azure COVID-19 → nutné udělat přípravu !!! - prezentace v PDF;
  • Možnost získat 4 bonusové body - Pošlete do příští přednášky kód z notebooku a ukázku grafu z DataBricks.

Výsledky

Pokud někdo nechce být uveden v tabulce, kontaktujte vyučující.

Jméno a příjmení Průběžný test
Ondřej Maňhal 14
Maroš Pechník 7
Martin Vybíralík 14
Rail Chamidullin 19
Daniel Groschup 17
Jaroslav Erben 11
Martin Krupa 8
Kryštof Woldřich 18
Marek Landa 17
Martin Jandek 9
Matěj Suchánek 10
Jan Kadlec 15
Jiří Miroslav Kačena 12
Dávid Michal Bulko 17
Ondřej Kafka 17
Lukáš Kunt 13
Petr Jeřábek 12
Otto Vodvářka 15
Tomáš Omasta 18
Petr Švec 18
Petr Švagr 15
Tommaso Gargiani 16
Bedřich Schindler 17
Jan Kolovecký 19
Leoš Řeháček 19
Martin Bernát 16
Martin Krutský 20
Ondřej Mareš 19
Sofie Šašorina 16
Adam Forgáč 12
Jan Neumann 17
Zdeněk Kotrlý 10
Marek Nenal 8
Ondřej Pejša 12
Michaela Weberová 13
Michal Toman 13

Klasifikační požadavky (zápočet, zkouška)

Zápočet

Lze jej získat:

 • Zisk aspoň 30 bodů z 60 možných za průběžný test, domácí úkol a praktický test.
  • za průběžný test v půli semestru lze získat max. 20 bodů
  • za test z teorie a praxe na konci semestru lze získat max. 40 bodů
 • Obsahem praktického testu jsou úlohy na zpracování dat pomocí Hadoopu a jeho technologií. Každý pracuje samostatně, ale je povoleno používat vlastní i internetové podklady: zápisky, vzorové kódy z přednášek i cvičení, Google, Stack Overflow apod.
 • Praktický test je možné jednou opakovat v opravném termínu podle dohody s vyučujícím. Při opakování se výsledek prvního testu ruší a platí výsledek druhého testu, i kdyby byl horší než u prvního testu.

Zkouška

Má písemnou část za 30 a ústní za 10 bodů. Ústní je nepovinná, ale může vést k nutnosti opakování zkoušky, stejně jako zásadní neznalost z písemné části, která je povinná.

Termíny zkoušek budou vypsány v KOSu:

 • xxx

Každý termín se dělí na tři časové sloty po 20 minutách, do každého slotu se mohou zapsat 3-4 studenti (počet se řídí počtem zkoušejících, kteří jsou v daný čas k dispozici).

Kontakt

Literatura

Hadoop: The Definitive Guide, 4th Edition, by Tom White

courses/b0m33bdt/start.txt · Last modified: 2021/12/01 11:13 by susicmar