{{ :courses:a4m33bdt:bigdata-knows-everything.jpg?800 |}}

===== Průběžné hodnocení =====

  * [[https://docs.google.com/spreadsheets/d/1E7WmTk7FTkzkw-MCYhTR3IA5U-z53VCLw5u6eKdkQr8/edit?usp=sharing|Tabulka průběžných výsledků]]

===== Repozitář s úlohami z cvičení =====

  * repozitář: [[https://github.com/stameser/BDT]]
  * větev s řešeními: [[https://github.com/stameser/BDT/tree/solutions]]

===== Rozvrh =====

Rozvrh je komplikovanější, popíšu ho podrobně.

===Lichý týden===

  * přednáška středa: 9:15-10:45 KN:E-127

===Sudý týden varianta A===
  * přednáška středa: 9:15-10:45 KN:E-127
  * cvičení středa 2 paralelky 11:00-12:30 KN:E-307 a 12:45-14:15 KN:E-307

===Sudý týden varianta B===
  * supercvičení 2 paralelky 9:15-11:30 a 12:00-14:15 KN:E-307


===== Rozvrh po týdnech =====

==St 4.10.2017 Sudý týden varianta A==

Přednáška: **Úvodní přednáška**
  * Stručný průlet kurzem, na co se těšit?
  * Organizace, za co zápočet?
  * Co jsou big data a kde se tu vzala?
  * Aplikace Big Data technologií v průmyslu.
  * Vztah Big Dat a Data Science
  * Co děláme na Big Datech v Profinitu?
  * {{:courses:b0m33bdt:b0m33bdt-1p.pdf|}}

Cvičení: **//První kroky na clusteru//**

==St 11.10.2017 Lichý týden==

Přednáška: **Architektura clusteru - Hadoop**
  * HW, Hadoop, cluster, HDFS
  * distribuce dat a výkonu
  * Cloudera, Hortonworks a ostatní
  * Správa zdrojů, YARN
  * {{:courses:b0m33bdt:b0m33bdt-2p.pdf|}}

==St 18.10.2017 Sudý týden, varianta B==

Supercvičení: **//Velké opakování, aneb co všechno potřebujeme znát//**

  * Linuxové nástroje pro proudové zpracování dat
  * SQL - velké souhrnné opakování
  * Python - základní seznámení s jazykem
  * HDFS
  * {{:courses:b0m33bdt:b0m33bdt-3c.pdf|}}

==St 25.10.2017 Lichý týden==

Přednáška **Storage**

  * Unordered List Item* HDFS, formáty ukládání dat, komprese dat
  * Hive a Impala
  * Externí a managed tabulky
  * Partitioning, bucketing
  * Indexy
  * Úvod do HBase
  * {{:courses:b0m33bdt:b0m33bdt-3p.pdf|}}
==St 1.11.2017 Sudý týden, varianta B==

Supercvičení: **//Hive//**

  * externí a interní tabulky
  * create database/table
  * stored as textfile/parquet
  * [[https://github.com/stameser/BDT]]
==St 8.11.2017 Lichý týden==

Přednáška **Map+reduce - paradigma a implementace**

  * Historie paraleleních výpočtů / functionální framework
  * Distribuce výpočtu mezi nody
  * Fáze výpočtu: map - combine - reduce
  * Schémata algoritmů pro map-reduce
  * Aplikace MapReduce
  * Alternativy k MapReduce
  * {{:courses:b0m33bdt:b0m33bdt-4p.pdf|}}
==St 15.11.2017 Sudý týden, varianta A==

Přednáška **Spark RDD**

  * Architektura Apache Spark
  * Spark vs. map-reduce
  * RDD, Job, Task, Executor
  * Transformace vs. Akce
  * Spuštění, konfigurace, příklady
  * {{:courses:b0m33bdt:b0m33bdt-5p.pdf|}}

Cvičení: **//Spark Map-Reduce//**

==St 22.11.2017 Lichý týden==

Přednáška **Spark SQL a Spark Streaming**

  * Spark SQL, sqlContext a DataFrame
  * Spark Streaming
  * Sprak GraphX
  * Spark ML
  * {{:courses:b0m33bdt:b0m33bdt-6p.pdf|}}
==St 29.11.2017 Sudý týden, varianta B==

Supercvičení: **//Spark SQL//**

==St 6.12.2017 Lichý týden==

Přednáška **Big Datové Architektury**

  * kontext DWH, 
  * data lake, 
  * transformace dat (ETL)
  * reporting
  * typické architektury Big Data řešení
  * {{:courses:b0m33bdt:b0m33bdt-7p.pdf|}}
==St 13.12.2017 Sudý týden, varianta A==

Přednáška **Stream Processing + Kafka**

  * Architektura proudového zpracování
  * Messaging processor - Apache Kafka
  * Stream processor - Spark Streaming
  * HBase
  * {{:courses:b0m33bdt:b0m33bdt-8p.pdf|}}


Cvičení: **//Stream Processing + Kafka//**

  * **Druhý malý zápočtový test**

==St 20.12.2017 Lichý týden==

Přednáška **Big Data Science**

  * Co je Data Science?
  * Metodika DS Projektu
  * Role Big Dat v DS
  * Modelování podobností a vztahů
  * Case Study: Detekce Online Fraudu
  * {{:courses:b0m33bdt:b0m33bdt-9p.pdf|}}

==St 3.1.2018==

<fc #ff0000>**Velký zápočtový test**</fc>


===== Podmínky pro zápočet a zkoušku =====

**Dvě možnosti pro zápočet** – můžete si vybrat

1. **Vypracování zápočtové úlohy**
  * zpracování samostatné analýzy velkého datového souboru - je možné přijít s vlastním zadáním
  * zodpovězení předepsaných a vlastních analytických otázek
  * výkonnostní měření v závislosti na velikosti vstupu
  * dokumentace postupu a sepsání závěrečné zprávy (cca 10 stran)
  * odevzdání dokumentovaných zdrojových kódů – github
  * klasifikační kritéria:
    * Analytické výstupy - zodpovězení otázek – 40%
    * Programátorské postupy a kvalita kódu – 30%
    * Analytická zpráva a kvalita textu – 30%
  * Návrhy témat: {{:courses:a4m33bdt:a4m33bdt-ulohy.pdf|}}

2. **Splnění zápočtového testu**
  * během semestru proběhne 1-2 testy z teorie hodnocené 10 body
  * závěrečný praktický test bude hodnocen 30 body
  * pro absolvování je třeba dosáhnout 50% bodů

**Ústní zkouška**
  * ústní zkoušení z teorie s krátkou písemnou přípravou
  * Výsledná známka vznikne jako součet bodů ze zápočtu a ze zkoušky 
  * Bodovací stupnice viz [[http://cmp.felk.cvut.cz/cmp/courses/ROB/roblec/Novaklasifikacnistupnice0001-1.pdf|klasifikační řád]] fakulty

===== Literatura =====

Hadoop: The Definitive Guide, 4th Edition, by Tom White