====== a4m33bdt -- Technologie pro velká data ======

{{ :courses:a4m33bdt:bigdata-knows-everything.jpg?800 |}}

===== Rozvrh =====

===Přednášky===

středa 9:15 v KN:E-126

===Cvičení===
 
101 - středa 9:15, KN:E-307 

102 - středa 11:00, KN:E-307 

===== Rozvrh po týdnech =====

St 22.2.2017 přednáška: **Úvodní přednáška**
  * Stručný průlet kurzem, na co se těšit?
  * Organizace, za co zápočet?
  * Co jsou big data a kde se tu vzala?
  * Aplikace Big Data technologií v průmyslu.
  * Vztah Big Dat a Data Science
  * Co děláme na Big Datech v Profinitu?
  * {{:courses:a4m33bdt:a4m33bdt-1p.pdf|}}

St 1.3.2017 přednáška: **Architektura clusteru - Hadoop**
  * HW, Hadoop, cluster, HDFS
  * distribuce dat a výkonu
  * Cloudera, Hortonworks a ostatní
  * Správa zdrojů, YARN
  * {{:courses:a4m33bdt:a4m33bdt-2p.pdf|}}

St 8.3.2017 přednáška: **Storage**
  * HDFS – ukládání souborů
  * Souborové formáty
  * Sloupcově orientované úložiště dat
  * Komprese dat
  * Hive/Impala
  * Stručný úvod do HBase
  * {{:courses:a4m33bdt:a4m33bdt-3p.pdf|}}

St 15.3.2017 cvičení: **//První kroky na clusteru//**
  * vyhlášení témat pro zápočtové práce
  * připojení (bez tunelování)
  * operace na lokálním FS a HDFS v přík. řádce
  * cvičné úlohy - zpracování dat nástroji Linuxu
  * grep, sed, awk, wc, ...
  * Ambari, správa služeb, Files View
  * {{:courses:a4m33bdt:a4m33bdt-4c.pdf|}}

St 22.3.2017 přednáška: **Map+reduce - paradigma a implementace**
  * Historie paraleleních výpočtů / functionální framework
  * Distribuce výpočtu mezi nody
  * Fáze výpočtu: map - combine - reduce
  * Schémata algoritmů pro map-reduce
  * Aplikace MapReduce
  * Alternativy k MapReduce
  * {{:courses:a4m33bdt:a4m33bdt-4p.pdf|}}

St 29.3.2017 cvičení: **//Hive//**
  * externí a interní tabulky 
  * create database/table 
  * stored as textfile/parquet 
  * základní SQL 
  * **<fc #ff0000>první malá zápočtová písemka</fc>**(cca 10 otázek)
  * {{:courses:a4m33bdt:a4m33bdt-5c.pdf|}}
  
St 5.4.2017 přednáška **Apache Spark**
  * RDD a DataFrames: map-reduce a SQL přístup
  * práce se Sparkem pomocí scala / java / python
  * pyspark, spark-shell
  * architektura (módy client a cluster), práce se zdroji
  * {{:courses:a4m33bdt:a4m33bdt-5p.pdf|}}

St 12.4.2017 cvičení **//Map Reduce java úlohy//**
  * {{:courses:a4m33bdt:a4m33bdt-7c.pdf|}}

St 19.4.2017 přednáška **Big Data Science**
  * Co je Data Science?
  * Metodika DS Projektu
  * Role Big Dat v DS
  * Modelování podobností a vztahů
  * Case Study: Detekce Online Fraudu
  * {{:courses:a4m33bdt:a4m33bdt-6p.pdf|}}

St 26.4.2017 cvičení **//Spark//**
  * {{:courses:a4m33bdt:a4m33bdt-9c.pdf|}}

St 3.5.2017 přednáška **Big Data Architektury**
  * {{:courses:a4m33bdt:a4m33bdt-7p.pdf|}}

St 10.5.2017 cvičení **//Spark -- větší úloha//**
  * **<fc #ff0000>druhá malá zápočtová písemka</fc>**(cca 10 otázek)
  *  {{:courses:a4m33bdt:a4m33bdt-11c.pptx|}}

St 17.5.2017 **Rekotorský den**

St 24.5.2017 **<fc #ff0000>Zápočtový test</fc>**


...

===== Podmínky pro zápočet =====

**Dvě možnosti** – můžete si vybrat

1. **Vypracování zápočtové úlohy**
  * zpracování samostatné analýzy velkého datového souboru - je možné přijít s vlastním zadáním
  * zodpovězení předepsaných a vlastních analytických otázek
  * výkonnostní měření v závislosti na velikosti vstupu
  * dokumentace postupu a sepsání závěrečné zprávy (cca 10 stran)
  * odevzdání dokumentovaných zdrojových kódů – github
  * klasifikační kritéria:
    * Analytické výstupy - zodpovězení otázek – 40%
    * Programátorské postupy a kvalita kódu – 30%
    * Analytická zpráva a kvalita textu – 30%
  * Návrhy témat: {{:courses:a4m33bdt:a4m33bdt-ulohy.pdf|}}

2. **Splnění zápočtového testu**
  * během semestru proběhne 1-2 testy z teorie hodnocené 10 body
  * závěrečný praktický test bude hodnocen 30 body
  * pro absolvování je třeba dosáhnout 50% bodů
   
Známka bude udělena podle [[http://cmp.felk.cvut.cz/cmp/courses/ROB/roblec/Novaklasifikacnistupnice0001-1.pdf|klasifikačního řádu]] fakulty

===== Literatura =====

Hadoop: The Definitive Guide, 4th Edition, by Tom White