{{ :courses:a4m33bdt:bigdata-knows-everything.jpg?700 |}}


===== Odkazy =====

**Body pro zápočet**

  * Průběžné bodování najdete v této [[https://docs.google.com/spreadsheets/d/14wUcBB2ChIc5E4_mbJiaTBdVMromNcU1UpH6X69wsEQ/edit?usp=sharing|tabulce]].

**Fórum**


  * Pro komunikaci se studenty jsme se letos rozhodli využít nově zřízené [[https://cw.felk.cvut.cz/forum/forum-1528-page-1.html|školní fórum]].

**Repozitář s úlohami z cvičení**


  * [[https://github.com/stameser/BDT]]


===== Rozvrh =====

Rozvrh je komplikovanější, popíšu ho podrobně.


**Lichý týden**
  * přednáška středa: 9:15-10:45 KN:E-127


**Sudý týden varianta A**
  * přednáška středa: 9:15-10:45 KN:E-127
  * cvičení středa 2 paralelky 
    * 11:00-12:30 KN:E-307
    * 12:45-14:15 KN:E-307


**Sudý týden varianta B**
  * supercvičení 2 paralelky 
    * 9:15-11:30
    * 12:00-14:15 KN:E-307


===== Rozvrh po týdnech =====

====St 3.10.2018 Sudý týden varianta A====

Přednáška: **Architektura clusteru - Hadoop**
  * HW, Hadoop, cluster, HDFS
  * distribuce dat a výkonu
  * Cloudera, Hortonworks a ostatní
  * Správa zdrojů, YARN
  * {{ :courses:b0m33bdt:b0m33bdt-2p.pdf |}}

Cvičení: **//První kroky na clusteru//**

====St 10.10.2018 Lichý týden====

Přednáška: **Úvodní přednáška**
  * Stručný průlet kurzem, na co se těšit?
  * Organizace, za co zápočet?
  * Co jsou big data a kde se tu vzala?
  * Aplikace Big Data technologií v průmyslu.
  * Vztah Big Dat a Data Science
  * Co děláme na Big Datech v Profinitu?
  * {{ :courses:b0m33bdt:b0m33bdt-1p.pdf |}}

====St 17.10.2018 Sudý týden, varianta B====

Supercvičení: **//Velké opakování, aneb co všechno potřebujeme znát//**

  * Linuxové nástroje pro proudové zpracování dat
  * SQL - velké souhrnné opakování
  * Python - základní seznámení s jazykem
  * HDFS
  * {{ :courses:b0m33bdt:b0m33bdt-3c.pdf |}}

====St 24.10.2018 Lichý týden====

Přednáška **Storage**

  * Unordered List Item* HDFS, formáty ukládání dat, komprese dat
  * Hive a Impala
  * Externí a managed tabulky
  * Partitioning, bucketing
  * Indexy
  * Úvod do HBase
  * {{ :courses:b0m33bdt:b0m33bdt-3p.pdf |}}

====St 31.10.2018 Sudý týden, varianta B====

Supercvičení: **//Hive//**

  * externí a interní tabulky
  * create database/table
  * stored as textfile/parquet

====St 7.11.2018 Lichý týden====

Přednáška **Map+reduce - paradigma a implementace**

  * Historie paraleleních výpočtů / functionální framework
  * Distribuce výpočtu mezi nody
  * Fáze výpočtu: map - combine - reduce
  * Schémata algoritmů pro map-reduce
  * Aplikace MapReduce
  * Alternativy k MapReduce
  * {{ :courses:b0m33bdt:b0m33bdt-4p.pdf |}}

====St 14.11.2018 Sudý týden, varianta A====

Přednáška **Spark RDD**

  * Architektura Apache Spark
  * Spark vs. map-reduce
  * RDD, Job, Task, Executor
  * Transformace vs. Akce
  * Spuštění, konfigurace, příklady
  * {{ :courses:b0m33bdt:b0m33bdt-5p.pdf |}}

Cvičení: **//Spark Map-Reduce//**

====St 21.11.2018 Lichý týden====

Přednáška **Spark SQL a Spark Streaming**

  * Spark SQL, sqlContext a DataFrame
  * Spark Streaming
  * Sprak GraphX
  * Spark ML
  * {{ :courses:b0m33bdt:b0m33bdt-6p.pdf |}}

====St 28.11.2018 Sudý týden, varianta B====

Supercvičení: **//Spark SQL//**

====St 5.12.2018 Lichý týden====

Přednáška **Big Datové Architektury**

  * kontext DWH, 
  * data lake, 
  * transformace dat (ETL)
  * reporting
  * typické architektury Big Data řešení
  * {{ :courses:b0m33bdt:b0m33bdt-7p.pdf |}}

====St 12.12.2018 Sudý týden, varianta A====

Přednáška **Stream Processing + Kafka**

  * Architektura proudového zpracování
  * Messaging processor - Apache Kafka
  * Stream processor - Spark Streaming
  * HBase
  * {{ :courses:b0m33bdt:b0m33bdt-8p.pdf |}}

Cvičení: **//Stream Processing + Kafka//**

  * **<del>Druhý malý zápočtový test</del>** (nahrazeno DC)

====St 19.12.2018 Lichý týden====

Přednáška **Big Data Science**

  * Co je Data Science?
  * Metodika DS Projektu
  * Role Big Dat v DS
  * Modelování podobností a vztahů
  * Case Study: Detekce Online Fraudu
  * {{ :courses:b0m33bdt:b0m33bdt-9p.pdf | b0m33bdt-9p.pdf}}

====St 9.1.2018====

<fc #ff0000>**Velký zápočtový test**</fc>


===== Podmínky pro zápočet a zkoušku =====

**Dvě možnosti pro zápočet** – můžete si vybrat

1. **Vypracování zápočtové úlohy**
  * zpracování samostatné analýzy velkého datového souboru - je možné přijít s vlastním zadáním
  * zodpovězení předepsaných a vlastních analytických otázek
  * výkonnostní měření v závislosti na velikosti vstupu
  * dokumentace postupu a sepsání závěrečné zprávy (cca 10 stran)
  * odevzdání dokumentovaných zdrojových kódů – github
  * klasifikační kritéria:
    * Analytické výstupy - zodpovězení otázek – 40%
    * Programátorské postupy a kvalita kódu – 30%
    * Analytická zpráva a kvalita textu – 30%
  * Návrhy témat: {{:courses:a4m33bdt:a4m33bdt-ulohy.pdf|}}

2. **Splnění zápočtového testu**
  * během semestru proběhne 1-2 testy z teorie hodnocené 10 body
  * závěrečný praktický test bude hodnocen 30 body
  * pro absolvování je třeba dosáhnout 50% bodů

**Ústní zkouška**
  * ústní zkoušení z teorie s krátkou písemnou přípravou
  * Výsledná známka vznikne jako součet bodů ze zápočtu a ze zkoušky 
  * Bodovací stupnice viz [[http://cmp.felk.cvut.cz/cmp/courses/ROB/roblec/Novaklasifikacnistupnice0001-1.pdf|klasifikační řád]] fakulty

===== Literatura =====

Hadoop: The Definitive Guide, 4th Edition, by Tom White