a4m33bdt -- Technologie pro velká data

Rozvrh

Přednášky

středa 9:15 v KN:E-126

Cvičení

101 - středa 9:15, KN:E-307

102 - středa 11:00, KN:E-307

Rozvrh po týdnech

St 22.2.2017 přednáška: Úvodní přednáška

Stručný průlet kurzem, na co se těšit?
Organizace, za co zápočet?
Co jsou big data a kde se tu vzala?
Aplikace Big Data technologií v průmyslu.
Vztah Big Dat a Data Science
Co děláme na Big Datech v Profinitu?
a4m33bdt-1p.pdf

St 1.3.2017 přednáška: Architektura clusteru - Hadoop

HW, Hadoop, cluster, HDFS
distribuce dat a výkonu
Cloudera, Hortonworks a ostatní
Správa zdrojů, YARN
a4m33bdt-2p.pdf

St 8.3.2017 přednáška: Storage

HDFS – ukládání souborů
Souborové formáty
Sloupcově orientované úložiště dat
Komprese dat
Hive/Impala
Stručný úvod do HBase
a4m33bdt-3p.pdf

St 15.3.2017 cvičení: První kroky na clusteru

vyhlášení témat pro zápočtové práce
připojení (bez tunelování)
operace na lokálním FS a HDFS v přík. řádce
cvičné úlohy - zpracování dat nástroji Linuxu
grep, sed, awk, wc, …
Ambari, správa služeb, Files View
a4m33bdt-4c.pdf

St 22.3.2017 přednáška: Map+reduce - paradigma a implementace

Historie paraleleních výpočtů / functionální framework
Distribuce výpočtu mezi nody
Fáze výpočtu: map - combine - reduce
Schémata algoritmů pro map-reduce
Aplikace MapReduce
Alternativy k MapReduce
a4m33bdt-4p.pdf

St 29.3.2017 cvičení: Hive

externí a interní tabulky
create database/table
stored as textfile/parquet
základní SQL
první malá zápočtová písemka(cca 10 otázek)
a4m33bdt-5c.pdf

St 5.4.2017 přednáška Apache Spark

RDD a DataFrames: map-reduce a SQL přístup
práce se Sparkem pomocí scala / java / python
pyspark, spark-shell
architektura (módy client a cluster), práce se zdroji
a4m33bdt-5p.pdf

St 12.4.2017 cvičení Map Reduce java úlohy

a4m33bdt-7c.pdf

St 19.4.2017 přednáška Big Data Science

Co je Data Science?
Metodika DS Projektu
Role Big Dat v DS
Modelování podobností a vztahů
Case Study: Detekce Online Fraudu
a4m33bdt-6p.pdf

St 26.4.2017 cvičení Spark

a4m33bdt-9c.pdf

St 3.5.2017 přednáška Big Data Architektury

a4m33bdt-7p.pdf

St 10.5.2017 cvičení Spark – větší úloha

druhá malá zápočtová písemka(cca 10 otázek)
a4m33bdt-11c.pptx

St 17.5.2017 Rekotorský den

St 24.5.2017 Zápočtový test

…

Podmínky pro zápočet

Dvě možnosti – můžete si vybrat

1. Vypracování zápočtové úlohy

zpracování samostatné analýzy velkého datového souboru - je možné přijít s vlastním zadáním
zodpovězení předepsaných a vlastních analytických otázek
výkonnostní měření v závislosti na velikosti vstupu
dokumentace postupu a sepsání závěrečné zprávy (cca 10 stran)
odevzdání dokumentovaných zdrojových kódů – github
klasifikační kritéria:
- Analytické výstupy - zodpovězení otázek – 40%
- Programátorské postupy a kvalita kódu – 30%
- Analytická zpráva a kvalita textu – 30%
Návrhy témat: a4m33bdt-ulohy.pdf

2. Splnění zápočtového testu

během semestru proběhne 1-2 testy z teorie hodnocené 10 body
závěrečný praktický test bude hodnocen 30 body
pro absolvování je třeba dosáhnout 50% bodů

Známka bude udělena podle klasifikačního řádu fakulty

Literatura

Hadoop: The Definitive Guide, 4th Edition, by Tom White

Table of Contents