101 - středa 9:15, KN:E-307
102 - středa 11:00, KN:E-307
St 22.2.2017 přednáška: Úvodní přednáška
Stručný průlet kurzem, na co se těšit?
Organizace, za co zápočet?
Co jsou big data a kde se tu vzala?
Aplikace Big Data technologií v průmyslu.
Vztah Big Dat a Data Science
Co děláme na Big Datech v Profinitu?
St 1.3.2017 přednáška: Architektura clusteru - Hadoop
HW, Hadoop, cluster, HDFS
distribuce dat a výkonu
Cloudera, Hortonworks a ostatní
Správa zdrojů, YARN
St 8.3.2017 přednáška: Storage
St 15.3.2017 cvičení: První kroky na clusteru
vyhlášení témat pro zápočtové práce
připojení (bez tunelování)
operace na lokálním FS a HDFS v přík. řádce
cvičné úlohy - zpracování dat nástroji Linuxu
grep, sed, awk, wc, …
Ambari, správa služeb, Files View
St 22.3.2017 přednáška: Map+reduce - paradigma a implementace
Historie paraleleních výpočtů / functionální framework
Distribuce výpočtu mezi nody
Fáze výpočtu: map - combine - reduce
Schémata algoritmů pro map-reduce
Aplikace MapReduce
Alternativy k MapReduce
St 29.3.2017 cvičení: Hive
externí a interní tabulky
create database/table
stored as textfile/parquet
základní SQL
první malá zápočtová písemka(cca 10 otázek)
St 5.4.2017 přednáška Apache Spark
RDD a DataFrames: map-reduce a SQL přístup
práce se Sparkem pomocí scala / java / python
pyspark, spark-shell
architektura (módy client a cluster), práce se zdroji
St 12.4.2017 cvičení Map Reduce java úlohy
St 19.4.2017 přednáška Big Data Science
St 26.4.2017 cvičení Spark
St 3.5.2017 přednáška Big Data Architektury
St 10.5.2017 cvičení Spark – větší úloha
St 17.5.2017 Rekotorský den
St 24.5.2017 Zápočtový test
…
Dvě možnosti – můžete si vybrat
1. Vypracování zápočtové úlohy
zpracování samostatné analýzy velkého datového souboru - je možné přijít s vlastním zadáním
zodpovězení předepsaných a vlastních analytických otázek
výkonnostní měření v závislosti na velikosti vstupu
dokumentace postupu a sepsání závěrečné zprávy (cca 10 stran)
odevzdání dokumentovaných zdrojových kódů – github
klasifikační kritéria:
Analytické výstupy - zodpovězení otázek – 40%
Programátorské postupy a kvalita kódu – 30%
Analytická zpráva a kvalita textu – 30%
2. Splnění zápočtového testu
během semestru proběhne 1-2 testy z teorie hodnocené 10 body
závěrečný praktický test bude hodnocen 30 body
pro absolvování je třeba dosáhnout 50% bodů
Známka bude udělena podle klasifikačního řádu fakulty