====== a4m33bdt -- Technologie pro velká data ======
{{ :courses:a4m33bdt:bigdata-knows-everything.jpg?800 |}}
===== Rozvrh =====
===Přednášky===
středa 9:15 v KN:E-126
===Cvičení===
101 - středa 9:15, KN:E-307
102 - středa 11:00, KN:E-307
===== Rozvrh po týdnech =====
St 22.2.2017 přednáška: **Úvodní přednáška**
* Stručný průlet kurzem, na co se těšit?
* Organizace, za co zápočet?
* Co jsou big data a kde se tu vzala?
* Aplikace Big Data technologií v průmyslu.
* Vztah Big Dat a Data Science
* Co děláme na Big Datech v Profinitu?
* {{:courses:a4m33bdt:a4m33bdt-1p.pdf|}}
St 1.3.2017 přednáška: **Architektura clusteru - Hadoop**
* HW, Hadoop, cluster, HDFS
* distribuce dat a výkonu
* Cloudera, Hortonworks a ostatní
* Správa zdrojů, YARN
* {{:courses:a4m33bdt:a4m33bdt-2p.pdf|}}
St 8.3.2017 přednáška: **Storage**
* HDFS – ukládání souborů
* Souborové formáty
* Sloupcově orientované úložiště dat
* Komprese dat
* Hive/Impala
* Stručný úvod do HBase
* {{:courses:a4m33bdt:a4m33bdt-3p.pdf|}}
St 15.3.2017 cvičení: **//První kroky na clusteru//**
* vyhlášení témat pro zápočtové práce
* připojení (bez tunelování)
* operace na lokálním FS a HDFS v přík. řádce
* cvičné úlohy - zpracování dat nástroji Linuxu
* grep, sed, awk, wc, ...
* Ambari, správa služeb, Files View
* {{:courses:a4m33bdt:a4m33bdt-4c.pdf|}}
St 22.3.2017 přednáška: **Map+reduce - paradigma a implementace**
* Historie paraleleních výpočtů / functionální framework
* Distribuce výpočtu mezi nody
* Fáze výpočtu: map - combine - reduce
* Schémata algoritmů pro map-reduce
* Aplikace MapReduce
* Alternativy k MapReduce
* {{:courses:a4m33bdt:a4m33bdt-4p.pdf|}}
St 29.3.2017 cvičení: **//Hive//**
* externí a interní tabulky
* create database/table
* stored as textfile/parquet
* základní SQL
* **první malá zápočtová písemka**(cca 10 otázek)
* {{:courses:a4m33bdt:a4m33bdt-5c.pdf|}}
St 5.4.2017 přednáška **Apache Spark**
* RDD a DataFrames: map-reduce a SQL přístup
* práce se Sparkem pomocí scala / java / python
* pyspark, spark-shell
* architektura (módy client a cluster), práce se zdroji
* {{:courses:a4m33bdt:a4m33bdt-5p.pdf|}}
St 12.4.2017 cvičení **//Map Reduce java úlohy//**
* {{:courses:a4m33bdt:a4m33bdt-7c.pdf|}}
St 19.4.2017 přednáška **Big Data Science**
* Co je Data Science?
* Metodika DS Projektu
* Role Big Dat v DS
* Modelování podobností a vztahů
* Case Study: Detekce Online Fraudu
* {{:courses:a4m33bdt:a4m33bdt-6p.pdf|}}
St 26.4.2017 cvičení **//Spark//**
* {{:courses:a4m33bdt:a4m33bdt-9c.pdf|}}
St 3.5.2017 přednáška **Big Data Architektury**
* {{:courses:a4m33bdt:a4m33bdt-7p.pdf|}}
St 10.5.2017 cvičení **//Spark -- větší úloha//**
* **druhá malá zápočtová písemka**(cca 10 otázek)
* {{:courses:a4m33bdt:a4m33bdt-11c.pptx|}}
St 17.5.2017 **Rekotorský den**
St 24.5.2017 **Zápočtový test**
...
===== Podmínky pro zápočet =====
**Dvě možnosti** – můžete si vybrat
1. **Vypracování zápočtové úlohy**
* zpracování samostatné analýzy velkého datového souboru - je možné přijít s vlastním zadáním
* zodpovězení předepsaných a vlastních analytických otázek
* výkonnostní měření v závislosti na velikosti vstupu
* dokumentace postupu a sepsání závěrečné zprávy (cca 10 stran)
* odevzdání dokumentovaných zdrojových kódů – github
* klasifikační kritéria:
* Analytické výstupy - zodpovězení otázek – 40%
* Programátorské postupy a kvalita kódu – 30%
* Analytická zpráva a kvalita textu – 30%
* Návrhy témat: {{:courses:a4m33bdt:a4m33bdt-ulohy.pdf|}}
2. **Splnění zápočtového testu**
* během semestru proběhne 1-2 testy z teorie hodnocené 10 body
* závěrečný praktický test bude hodnocen 30 body
* pro absolvování je třeba dosáhnout 50% bodů
Známka bude udělena podle [[http://cmp.felk.cvut.cz/cmp/courses/ROB/roblec/Novaklasifikacnistupnice0001-1.pdf|klasifikačního řádu]] fakulty
===== Literatura =====
Hadoop: The Definitive Guide, 4th Edition, by Tom White