Warning
This page is located in archive. Go to the latest version of this course pages. Go the latest version of this page.

B0M33BDT – Technologie pro velká data

Výuka proběhne pravděpodobně prezenčním způsobem, resp. do odvolání. V případě online výuky se učí přes fakultní skupiny MS Teams. Používáme skupinu B0M33BDT+BE0M33BDT.

Aktuální informace:

Důležité odkazy

Prerekvizity

Pro absolvování předmětu je potřeba umět aspoň na základní úrovni:

  • Linux (manipulace se soubory a adresáři, orientace v adresářové struktuře)
  • SQL (vytvoření tabulky, jednoduchý SELECT, agregační SELECT, JOIN)
  • Python
    • typy list, tuple, dict, set
    • manipulace s textovými řetězci
    • flow control (if, while, for)
    • definice funkce (def), lambda funkce
  • základní regulární výrazy

Doporučujeme si nosit vlastní notebook, který se dokáže připojit na internet. Je potřeba mít aplikace na SCP připojení (např. WinSCP) a na SSH připojení (např. PuTTY). Hodí se i inteligentní textový editor pro psaní skriptů v Pythonu a SQL (Notepad++, PSPad apod.).

Rozvrh

Výuka probíhá vždy ve středu. Prezenční výuka byla plánována do budovy na Karlově náměstí. Po dobu distanční výuky budou odkazy na online výuku uváděny u příslušného týdne.

  • lichý týden (L):
    • přednáška 9:15–10:45, místnost KN:E-126
  • sudý týden, varianta A (S-A):
    • přednáška 9:15–10:45, místnost KN:E-126
    • cvičení 2 paralelky 11:00–12:30 a 12:45–14:15, místnost KN:E-307

První týden semestru je lichý, dále viz níže. V případě prezenční výuky je jediným omezením kapacita místnosti na cvičení (22 míst, ostatní pak musí sedět vedle, na židli bez stolečku nebo se k někomu vmáčknout).

Sylabus a plán semestru

  • 1. týden (S, 22. 9.): Organizace přednášek, klasifikační požadavky. Motivace, přehled, aplikace.
  • 2. týden (L, 29. 9.):
    • přednáška – Hadoop, architektura clusteru, prezentace v PDF.
    • cvičení (přesun z min. týdne) – první kroky na clusteru; nutno si předem vyřídit přístup na Metacentrum, viz výše, prezentace v PDF.
  • 3. týden (S, 6. 10.):
  • 4. týden (L, 13. 10.):
  • 5. týden (S, 20. 10.):
    • přednáška – Architektury a security, prezentace v PDF.
    • cvičení Spark + průběžný test za 20b. ;
  • 6. týden (L, 27. 10.):
  • 7. týden (S, 3. 11.):
    • přednáška – Streaming, prezentace v PDF.
    • cvičení + náhradní průběžný test za 20b. ;
  • 8. týden (L, 10. 11.):
  • 9. týden (S, 17. 11.):
    • Statni svatek
  • 10. týden (L, 24. 11.):
  • 11. týden (S, 1. 12.):
    • přednáška – Azure, prezentace v PDF.
    • cvičení - Azure COVID-19 → nutné udělat přípravu !!! - prezentace v PDF;
    • Možnost získat 4 bonusové body - Pošlete do příští přednášky kód z notebooku a ukázku grafu z DataBricks.
  • 12. týden (L, 8. 12.):
  • 13. týden (S, 15. 12.):
  • 14. týden (L, 5. 1.):

Výsledky

Pokud někdo nechce být uveden v tabulce, kontaktujte vyučující.

Jméno a příjmení Průběžný test Bonus cvičení Z.test Praktická
Ondřej Maňhal 14 8.5 35.8
Maroš Pechník 7 4
Martin Vybíralík 14 3.5 5 29.1
Rail Chamidullin * 19 8 38
Daniel Groschup 17 10 16
Jaroslav Erben 11
Martin Krupa 8 5.5 18.4
Kryštof Woldřich * 18 4 7 32
Marek Landa 17 8 30
Martin Jandek * 9 10 34
Matěj Suchánek 10 4 5 37.9
Jan Kadlec 15 4 5.5 27.1
Jiří Miroslav Kačena 12 8 34.3
Dávid Michal Bulko 17 4 7.5 33.7
Ondřej Kafka 17
Lukáš Kunt 13 2-pozdě 7.5
Petr Jeřábek 12 4 6 32.8
Otto Vodvářka 15 4 8.5 36.4
Tomáš Omasta * 18 8 27
Petr Švec 18 6.5 31
Petr Švagr 15 6 23.8
Tommaso Gargiani 16 4 9.5 32.8
Bedřich Schindler 17 4 9 27
Jan Kolovecký 19 4 8 40
Leoš Řeháček 19 10 28
Martin Bernát 16 9 31
Martin Krutský * 20 8 33
Ondřej Mareš 19 4 10 42.7
Sofie Šašorina 16 8 16
Adam Forgáč 12 3 5.5 23.8
Jan Neumann 17 4 10 47.5
Zdeněk Kotrlý 10 4 8 22
Marek Nenal 8 9 23
Ondřej Pejša 12
Michaela Weberová 13 6.5 22.3
Michal Toman 13 4 9 30.4

Klasifikační požadavky (zápočet, zkouška)

Zápočet

Lze jej získat:

  • Zisk aspoň 30 bodů z 60 možných za průběžný test, domácí úkol a praktický test.
    • za průběžný test v půli semestru lze získat max. 20 bodů
    • za test z teorie a praxe na konci semestru lze získat max. 40 bodů
  • Obsahem praktického testu jsou úlohy na zpracování dat pomocí Hadoopu a jeho technologií. Každý pracuje samostatně, ale je povoleno používat vlastní i internetové podklady: zápisky, vzorové kódy z přednášek i cvičení, Google, Stack Overflow apod.
  • Praktický test je možné jednou opakovat v opravném termínu podle dohody s vyučujícím. Při opakování se výsledek prvního testu ruší a platí výsledek druhého testu, i kdyby byl horší než u prvního testu.

Zkouška

Má písemnou část za 30 a ústní za 10 bodů. Ústní je nepovinná, ale může vést k nutnosti opakování zkoušky, stejně jako zásadní neznalost z písemné části, která je povinná.

Termíny zkoušek budou vypsány v KOSu:

  • 14.1. - koordinace přes uzavřený Teams kanál, 10 minutový abcd test a následně npovinná ústní

Každý termín se dělí na tři časové sloty po 20 minutách, do každého slotu se mohou zapsat 3-4 studenti (počet se řídí počtem zkoušejících, kteří jsou v daný čas k dispozici).

Kontakt

Literatura

Hadoop: The Definitive Guide, 4th Edition, by Tom White

courses/b0m33bdt/start.txt · Last modified: 2022/01/14 11:31 by susicmar