{{ :courses:a4m33bdt:bigdata-knows-everything.jpg?700 |}}
===== Odkazy =====
**Body pro zápočet**
* Průběžné bodování najdete v této [[https://docs.google.com/spreadsheets/d/14wUcBB2ChIc5E4_mbJiaTBdVMromNcU1UpH6X69wsEQ/edit?usp=sharing|tabulce]].
**Fórum**
* Pro komunikaci se studenty jsme se letos rozhodli využít nově zřízené [[https://cw.felk.cvut.cz/forum/forum-1528-page-1.html|školní fórum]].
**Repozitář s úlohami z cvičení**
* [[https://github.com/stameser/BDT]]
===== Rozvrh =====
Rozvrh je komplikovanější, popíšu ho podrobně.
**Lichý týden**
* přednáška středa: 9:15-10:45 KN:E-127
**Sudý týden varianta A**
* přednáška středa: 9:15-10:45 KN:E-127
* cvičení středa 2 paralelky
* 11:00-12:30 KN:E-307
* 12:45-14:15 KN:E-307
**Sudý týden varianta B**
* supercvičení 2 paralelky
* 9:15-11:30
* 12:00-14:15 KN:E-307
===== Rozvrh po týdnech =====
====St 3.10.2018 Sudý týden varianta A====
Přednáška: **Architektura clusteru - Hadoop**
* HW, Hadoop, cluster, HDFS
* distribuce dat a výkonu
* Cloudera, Hortonworks a ostatní
* Správa zdrojů, YARN
* {{ :courses:b0m33bdt:b0m33bdt-2p.pdf |}}
Cvičení: **//První kroky na clusteru//**
====St 10.10.2018 Lichý týden====
Přednáška: **Úvodní přednáška**
* Stručný průlet kurzem, na co se těšit?
* Organizace, za co zápočet?
* Co jsou big data a kde se tu vzala?
* Aplikace Big Data technologií v průmyslu.
* Vztah Big Dat a Data Science
* Co děláme na Big Datech v Profinitu?
* {{ :courses:b0m33bdt:b0m33bdt-1p.pdf |}}
====St 17.10.2018 Sudý týden, varianta B====
Supercvičení: **//Velké opakování, aneb co všechno potřebujeme znát//**
* Linuxové nástroje pro proudové zpracování dat
* SQL - velké souhrnné opakování
* Python - základní seznámení s jazykem
* HDFS
* {{ :courses:b0m33bdt:b0m33bdt-3c.pdf |}}
====St 24.10.2018 Lichý týden====
Přednáška **Storage**
* Unordered List Item* HDFS, formáty ukládání dat, komprese dat
* Hive a Impala
* Externí a managed tabulky
* Partitioning, bucketing
* Indexy
* Úvod do HBase
* {{ :courses:b0m33bdt:b0m33bdt-3p.pdf |}}
====St 31.10.2018 Sudý týden, varianta B====
Supercvičení: **//Hive//**
* externí a interní tabulky
* create database/table
* stored as textfile/parquet
====St 7.11.2018 Lichý týden====
Přednáška **Map+reduce - paradigma a implementace**
* Historie paraleleních výpočtů / functionální framework
* Distribuce výpočtu mezi nody
* Fáze výpočtu: map - combine - reduce
* Schémata algoritmů pro map-reduce
* Aplikace MapReduce
* Alternativy k MapReduce
* {{ :courses:b0m33bdt:b0m33bdt-4p.pdf |}}
====St 14.11.2018 Sudý týden, varianta A====
Přednáška **Spark RDD**
* Architektura Apache Spark
* Spark vs. map-reduce
* RDD, Job, Task, Executor
* Transformace vs. Akce
* Spuštění, konfigurace, příklady
* {{ :courses:b0m33bdt:b0m33bdt-5p.pdf |}}
Cvičení: **//Spark Map-Reduce//**
====St 21.11.2018 Lichý týden====
Přednáška **Spark SQL a Spark Streaming**
* Spark SQL, sqlContext a DataFrame
* Spark Streaming
* Sprak GraphX
* Spark ML
* {{ :courses:b0m33bdt:b0m33bdt-6p.pdf |}}
====St 28.11.2018 Sudý týden, varianta B====
Supercvičení: **//Spark SQL//**
====St 5.12.2018 Lichý týden====
Přednáška **Big Datové Architektury**
* kontext DWH,
* data lake,
* transformace dat (ETL)
* reporting
* typické architektury Big Data řešení
* {{ :courses:b0m33bdt:b0m33bdt-7p.pdf |}}
====St 12.12.2018 Sudý týden, varianta A====
Přednáška **Stream Processing + Kafka**
* Architektura proudového zpracování
* Messaging processor - Apache Kafka
* Stream processor - Spark Streaming
* HBase
* {{ :courses:b0m33bdt:b0m33bdt-8p.pdf |}}
Cvičení: **//Stream Processing + Kafka//**
* **Druhý malý zápočtový test** (nahrazeno DC)
====St 19.12.2018 Lichý týden====
Přednáška **Big Data Science**
* Co je Data Science?
* Metodika DS Projektu
* Role Big Dat v DS
* Modelování podobností a vztahů
* Case Study: Detekce Online Fraudu
* {{ :courses:b0m33bdt:b0m33bdt-9p.pdf | b0m33bdt-9p.pdf}}
====St 9.1.2018====
**Velký zápočtový test**
===== Podmínky pro zápočet a zkoušku =====
**Dvě možnosti pro zápočet** – můžete si vybrat
1. **Vypracování zápočtové úlohy**
* zpracování samostatné analýzy velkého datového souboru - je možné přijít s vlastním zadáním
* zodpovězení předepsaných a vlastních analytických otázek
* výkonnostní měření v závislosti na velikosti vstupu
* dokumentace postupu a sepsání závěrečné zprávy (cca 10 stran)
* odevzdání dokumentovaných zdrojových kódů – github
* klasifikační kritéria:
* Analytické výstupy - zodpovězení otázek – 40%
* Programátorské postupy a kvalita kódu – 30%
* Analytická zpráva a kvalita textu – 30%
* Návrhy témat: {{:courses:a4m33bdt:a4m33bdt-ulohy.pdf|}}
2. **Splnění zápočtového testu**
* během semestru proběhne 1-2 testy z teorie hodnocené 10 body
* závěrečný praktický test bude hodnocen 30 body
* pro absolvování je třeba dosáhnout 50% bodů
**Ústní zkouška**
* ústní zkoušení z teorie s krátkou písemnou přípravou
* Výsledná známka vznikne jako součet bodů ze zápočtu a ze zkoušky
* Bodovací stupnice viz [[http://cmp.felk.cvut.cz/cmp/courses/ROB/roblec/Novaklasifikacnistupnice0001-1.pdf|klasifikační řád]] fakulty
===== Literatura =====
Hadoop: The Definitive Guide, 4th Edition, by Tom White