Průběžné hodnocení
Repozitář s úlohami z cvičení
Rozvrh
Rozvrh je komplikovanější, popíšu ho podrobně.
Lichý týden
Sudý týden varianta A
Sudý týden varianta B
Rozvrh po týdnech
St 4.10.2017 Sudý týden varianta A
Přednáška: Úvodní přednáška
Stručný průlet kurzem, na co se těšit?
Organizace, za co zápočet?
Co jsou big data a kde se tu vzala?
Aplikace Big Data technologií v průmyslu.
Vztah Big Dat a Data Science
Co děláme na Big Datech v Profinitu?
Cvičení: První kroky na clusteru
St 11.10.2017 Lichý týden
Přednáška: Architektura clusteru - Hadoop
HW, Hadoop, cluster, HDFS
distribuce dat a výkonu
Cloudera, Hortonworks a ostatní
Správa zdrojů, YARN
St 18.10.2017 Sudý týden, varianta B
Supercvičení: Velké opakování, aneb co všechno potřebujeme znát
Linuxové nástroje pro proudové zpracování dat
SQL - velké souhrnné opakování
Python - základní seznámení s jazykem
HDFS
St 25.10.2017 Lichý týden
Přednáška Storage
Unordered List Item* HDFS, formáty ukládání dat, komprese dat
Hive a Impala
Externí a managed tabulky
Partitioning, bucketing
Indexy
Úvod do HBase
St 1.11.2017 Sudý týden, varianta B
St 8.11.2017 Lichý týden
Přednáška Map+reduce - paradigma a implementace
Historie paraleleních výpočtů / functionální framework
Distribuce výpočtu mezi nody
Fáze výpočtu: map - combine - reduce
Schémata algoritmů pro map-reduce
Aplikace MapReduce
Alternativy k MapReduce
St 15.11.2017 Sudý týden, varianta A
Přednáška Spark RDD
Architektura Apache Spark
Spark vs. map-reduce
RDD, Job, Task, Executor
Transformace vs. Akce
Spuštění, konfigurace, příklady
Cvičení: Spark Map-Reduce
St 22.11.2017 Lichý týden
Přednáška Spark SQL a Spark Streaming
St 29.11.2017 Sudý týden, varianta B
St 6.12.2017 Lichý týden
Přednáška Big Datové Architektury
St 13.12.2017 Sudý týden, varianta A
Přednáška Stream Processing + Kafka
Architektura proudového zpracování
Messaging processor - Apache Kafka
Stream processor - Spark Streaming
HBase
Cvičení: Stream Processing + Kafka
St 20.12.2017 Lichý týden
Přednáška Big Data Science
St 3.1.2018
Podmínky pro zápočet a zkoušku
Dvě možnosti pro zápočet – můžete si vybrat
1. Vypracování zápočtové úlohy
zpracování samostatné analýzy velkého datového souboru - je možné přijít s vlastním zadáním
zodpovězení předepsaných a vlastních analytických otázek
výkonnostní měření v závislosti na velikosti vstupu
dokumentace postupu a sepsání závěrečné zprávy (cca 10 stran)
odevzdání dokumentovaných zdrojových kódů – github
klasifikační kritéria:
Analytické výstupy - zodpovězení otázek – 40%
Programátorské postupy a kvalita kódu – 30%
Analytická zpráva a kvalita textu – 30%
2. Splnění zápočtového testu
během semestru proběhne 1-2 testy z teorie hodnocené 10 body
závěrečný praktický test bude hodnocen 30 body
pro absolvování je třeba dosáhnout 50% bodů
Ústní zkouška
Literatura
Hadoop: The Definitive Guide, 4th Edition, by Tom White