courses:b0m33bdt:start

Průběžné hodnocení
Repozitář s úlohami z cvičení
Rozvrh
Rozvrh po týdnech
Podmínky pro zápočet a zkoušku
Literatura

Průběžné hodnocení

Tabulka průběžných výsledků

Repozitář s úlohami z cvičení

repozitář: https://github.com/stameser/BDT
větev s řešeními: https://github.com/stameser/BDT/tree/solutions

Rozvrh

Rozvrh je komplikovanější, popíšu ho podrobně.

Lichý týden

přednáška středa: 9:15-10:45 KN:E-127

Sudý týden varianta A

přednáška středa: 9:15-10:45 KN:E-127
cvičení středa 2 paralelky 11:00-12:30 KN:E-307 a 12:45-14:15 KN:E-307

Sudý týden varianta B

supercvičení 2 paralelky 9:15-11:30 a 12:00-14:15 KN:E-307

Rozvrh po týdnech

St 4.10.2017 Sudý týden varianta A

Přednáška: Úvodní přednáška

Stručný průlet kurzem, na co se těšit?
Organizace, za co zápočet?
Co jsou big data a kde se tu vzala?
Aplikace Big Data technologií v průmyslu.
Vztah Big Dat a Data Science
Co děláme na Big Datech v Profinitu?
b0m33bdt-1p.pdf

Cvičení: První kroky na clusteru

St 11.10.2017 Lichý týden

Přednáška: Architektura clusteru - Hadoop

HW, Hadoop, cluster, HDFS
distribuce dat a výkonu
Cloudera, Hortonworks a ostatní
Správa zdrojů, YARN
b0m33bdt-2p.pdf

St 18.10.2017 Sudý týden, varianta B

Supercvičení: Velké opakování, aneb co všechno potřebujeme znát

Linuxové nástroje pro proudové zpracování dat
SQL - velké souhrnné opakování
Python - základní seznámení s jazykem
HDFS
b0m33bdt-3c.pdf

St 25.10.2017 Lichý týden

Přednáška Storage

Unordered List Item* HDFS, formáty ukládání dat, komprese dat
Hive a Impala
Externí a managed tabulky
Partitioning, bucketing
Indexy
Úvod do HBase
b0m33bdt-3p.pdf

St 1.11.2017 Sudý týden, varianta B

Supercvičení: Hive

externí a interní tabulky
create database/table
stored as textfile/parquet
https://github.com/stameser/BDT

St 8.11.2017 Lichý týden

Přednáška Map+reduce - paradigma a implementace

Historie paraleleních výpočtů / functionální framework
Distribuce výpočtu mezi nody
Fáze výpočtu: map - combine - reduce
Schémata algoritmů pro map-reduce
Aplikace MapReduce
Alternativy k MapReduce
b0m33bdt-4p.pdf

St 15.11.2017 Sudý týden, varianta A

Přednáška Spark RDD

Architektura Apache Spark
Spark vs. map-reduce
RDD, Job, Task, Executor
Transformace vs. Akce
Spuštění, konfigurace, příklady
b0m33bdt-5p.pdf

Cvičení: Spark Map-Reduce

St 22.11.2017 Lichý týden

Přednáška Spark SQL a Spark Streaming

Spark SQL, sqlContext a DataFrame
Spark Streaming
Sprak GraphX
Spark ML
b0m33bdt-6p.pdf

St 29.11.2017 Sudý týden, varianta B

Supercvičení: Spark SQL

St 6.12.2017 Lichý týden

Přednáška Big Datové Architektury

kontext DWH,
data lake,
transformace dat (ETL)
reporting
typické architektury Big Data řešení
b0m33bdt-7p.pdf

St 13.12.2017 Sudý týden, varianta A

Přednáška Stream Processing + Kafka

Architektura proudového zpracování
Messaging processor - Apache Kafka
Stream processor - Spark Streaming
HBase
b0m33bdt-8p.pdf

Cvičení: Stream Processing + Kafka

Druhý malý zápočtový test

St 20.12.2017 Lichý týden

Přednáška Big Data Science

Co je Data Science?
Metodika DS Projektu
Role Big Dat v DS
Modelování podobností a vztahů
Case Study: Detekce Online Fraudu
b0m33bdt-9p.pdf

St 3.1.2018

Velký zápočtový test

Podmínky pro zápočet a zkoušku

Dvě možnosti pro zápočet – můžete si vybrat

1. Vypracování zápočtové úlohy

zpracování samostatné analýzy velkého datového souboru - je možné přijít s vlastním zadáním
zodpovězení předepsaných a vlastních analytických otázek
výkonnostní měření v závislosti na velikosti vstupu
dokumentace postupu a sepsání závěrečné zprávy (cca 10 stran)
odevzdání dokumentovaných zdrojových kódů – github
klasifikační kritéria:
- Analytické výstupy - zodpovězení otázek – 40%
- Programátorské postupy a kvalita kódu – 30%
- Analytická zpráva a kvalita textu – 30%
Návrhy témat: a4m33bdt-ulohy.pdf

2. Splnění zápočtového testu

během semestru proběhne 1-2 testy z teorie hodnocené 10 body
závěrečný praktický test bude hodnocen 30 body
pro absolvování je třeba dosáhnout 50% bodů

Ústní zkouška

ústní zkoušení z teorie s krátkou písemnou přípravou
Výsledná známka vznikne jako součet bodů ze zápočtu a ze zkoušky
Bodovací stupnice viz klasifikační řád fakulty

Literatura

Hadoop: The Definitive Guide, 4th Edition, by Tom White

Table of Contents