B0M33BDT – Technologie pro velká data

Výuka proběhne pravděpodobně prezenčním způsobem, resp. do odvolání. V případě online výuky se učí přes fakultní skupiny MS Teams. Používáme skupinu B0M33BDT+BE0M33BDT.

Aktuální informace:

Důležité odkazy

Prerekvizity

Pro absolvování předmětu je potřeba umět aspoň na základní úrovni:

  • Linux (manipulace se soubory a adresáři, orientace v adresářové struktuře)
  • SQL (vytvoření tabulky, jednoduchý SELECT, agregační SELECT, JOIN)
  • Python
    • typy list, tuple, dict, set
    • manipulace s textovými řetězci
    • flow control (if, while, for)
    • definice funkce (def), lambda funkce
  • základní regulární výrazy

Doporučujeme si nosit vlastní notebook, který se dokáže připojit na internet. Je potřeba mít aplikace na SCP připojení (např. WinSCP) a na SSH připojení (např. PuTTY). Hodí se i inteligentní textový editor pro psaní skriptů v Pythonu a SQL (Notepad++, PSPad apod.).

Rozvrh

Výuka probíhá vždy ve středu. Prezenční výuka byla plánována do budovy na Karlově náměstí. Po dobu distanční výuky budou odkazy na online výuku uváděny u příslušného týdne.

  • lichý týden (L):
    • přednáška 9:15–10:45, místnost KN:E-127
  • sudý týden, varianta A (S-A):
    • přednáška 9:15–10:45, místnost KN:E-127
    • cvičení 2 paralelky 11:00–12:30 a 12:45–14:15, místnost KN:E-307

První týden semestru je lichý, dále viz níže. V případě prezenční výuky je jediným omezením kapacita místnosti na cvičení (22 míst, ostatní pak musí sedět vedle, na židli bez stolečku nebo se k někomu vmáčknout).

Sylabus a plán semestru - TBD draft

  • 1. týden (S, 23. 9.): Organizace přednášek, klasifikační požadavky. Motivace, přehled, aplikace.
  • 2. týden (L, 30. 9.):
    • přednáška – Hadoop, architektura clusteru, prezentace v PDF.
    • cvičení (přesun z min. týdne) – první kroky na clusteru; nutno si předem vyřídit přístup na Metacentrum, viz výše, prezentace v PDF.

Domácí úkol

V tomto semestru je zadán jediný domácí úkol, za který můžete získat max. 10 bodů. Termín odevzdání je nejpozději o půlnoci z 31. 12. 2021 na 1. 1. 2022. Máte-li dotazy, napište e-mail.

Klasifikační požadavky (zápočet, zkouška)

Zápočet

Lze jej získat:

  • Zisk aspoň 30 bodů z 60 možných za průběžný test, domácí úkol a praktický test.
    • za průběžný test v půli semestru lze získat max. 20 bodů
    • za test z teorie a praxe na konci semestru lze získat max. 40 bodů
  • Obsahem praktického testu jsou úlohy na zpracování dat pomocí Hadoopu a jeho technologií. Každý pracuje samostatně, ale je povoleno používat vlastní i internetové podklady: zápisky, vzorové kódy z přednášek i cvičení, Google, Stack Overflow apod.
  • Praktický test je možné jednou opakovat v opravném termínu podle dohody s vyučujícím. Při opakování se výsledek prvního testu ruší a platí výsledek druhého testu, i kdyby byl horší než u prvního testu.

Zkouška

Má písemnou část za 30 a ústní za 10 bodů. Ústní je nepovinná, ale může vést k nutnosti opakování zkoušky, stejně jako zásadní neznalost z písemné části, která je povinná.

Termíny zkoušek budou vypsány v KOSu:

  • xxx

Každý termín se dělí na tři časové sloty po 20 minutách, do každého slotu se mohou zapsat 3-4 studenti (počet se řídí počtem zkoušejících, kteří jsou v daný čas k dispozici).

Kontakt

Literatura

Hadoop: The Definitive Guide, 4th Edition, by Tom White

courses/b0m33bdt/start.txt · Last modified: 2021/09/22 00:30 by susicmar