{{ :courses:a4m33bdt:bigdata-knows-everything.jpg?800 |}} ===== Průběžné hodnocení ===== * [[https://docs.google.com/spreadsheets/d/1E7WmTk7FTkzkw-MCYhTR3IA5U-z53VCLw5u6eKdkQr8/edit?usp=sharing|Tabulka průběžných výsledků]] ===== Repozitář s úlohami z cvičení ===== * repozitář: [[https://github.com/stameser/BDT]] * větev s řešeními: [[https://github.com/stameser/BDT/tree/solutions]] ===== Rozvrh ===== Rozvrh je komplikovanější, popíšu ho podrobně. ===Lichý týden=== * přednáška středa: 9:15-10:45 KN:E-127 ===Sudý týden varianta A=== * přednáška středa: 9:15-10:45 KN:E-127 * cvičení středa 2 paralelky 11:00-12:30 KN:E-307 a 12:45-14:15 KN:E-307 ===Sudý týden varianta B=== * supercvičení 2 paralelky 9:15-11:30 a 12:00-14:15 KN:E-307 ===== Rozvrh po týdnech ===== ==St 4.10.2017 Sudý týden varianta A== Přednáška: **Úvodní přednáška** * Stručný průlet kurzem, na co se těšit? * Organizace, za co zápočet? * Co jsou big data a kde se tu vzala? * Aplikace Big Data technologií v průmyslu. * Vztah Big Dat a Data Science * Co děláme na Big Datech v Profinitu? * {{:courses:b0m33bdt:b0m33bdt-1p.pdf|}} Cvičení: **//První kroky na clusteru//** ==St 11.10.2017 Lichý týden== Přednáška: **Architektura clusteru - Hadoop** * HW, Hadoop, cluster, HDFS * distribuce dat a výkonu * Cloudera, Hortonworks a ostatní * Správa zdrojů, YARN * {{:courses:b0m33bdt:b0m33bdt-2p.pdf|}} ==St 18.10.2017 Sudý týden, varianta B== Supercvičení: **//Velké opakování, aneb co všechno potřebujeme znát//** * Linuxové nástroje pro proudové zpracování dat * SQL - velké souhrnné opakování * Python - základní seznámení s jazykem * HDFS * {{:courses:b0m33bdt:b0m33bdt-3c.pdf|}} ==St 25.10.2017 Lichý týden== Přednáška **Storage** * Unordered List Item* HDFS, formáty ukládání dat, komprese dat * Hive a Impala * Externí a managed tabulky * Partitioning, bucketing * Indexy * Úvod do HBase * {{:courses:b0m33bdt:b0m33bdt-3p.pdf|}} ==St 1.11.2017 Sudý týden, varianta B== Supercvičení: **//Hive//** * externí a interní tabulky * create database/table * stored as textfile/parquet * [[https://github.com/stameser/BDT]] ==St 8.11.2017 Lichý týden== Přednáška **Map+reduce - paradigma a implementace** * Historie paraleleních výpočtů / functionální framework * Distribuce výpočtu mezi nody * Fáze výpočtu: map - combine - reduce * Schémata algoritmů pro map-reduce * Aplikace MapReduce * Alternativy k MapReduce * {{:courses:b0m33bdt:b0m33bdt-4p.pdf|}} ==St 15.11.2017 Sudý týden, varianta A== Přednáška **Spark RDD** * Architektura Apache Spark * Spark vs. map-reduce * RDD, Job, Task, Executor * Transformace vs. Akce * Spuštění, konfigurace, příklady * {{:courses:b0m33bdt:b0m33bdt-5p.pdf|}} Cvičení: **//Spark Map-Reduce//** ==St 22.11.2017 Lichý týden== Přednáška **Spark SQL a Spark Streaming** * Spark SQL, sqlContext a DataFrame * Spark Streaming * Sprak GraphX * Spark ML * {{:courses:b0m33bdt:b0m33bdt-6p.pdf|}} ==St 29.11.2017 Sudý týden, varianta B== Supercvičení: **//Spark SQL//** ==St 6.12.2017 Lichý týden== Přednáška **Big Datové Architektury** * kontext DWH, * data lake, * transformace dat (ETL) * reporting * typické architektury Big Data řešení * {{:courses:b0m33bdt:b0m33bdt-7p.pdf|}} ==St 13.12.2017 Sudý týden, varianta A== Přednáška **Stream Processing + Kafka** * Architektura proudového zpracování * Messaging processor - Apache Kafka * Stream processor - Spark Streaming * HBase * {{:courses:b0m33bdt:b0m33bdt-8p.pdf|}} Cvičení: **//Stream Processing + Kafka//** * **Druhý malý zápočtový test** ==St 20.12.2017 Lichý týden== Přednáška **Big Data Science** * Co je Data Science? * Metodika DS Projektu * Role Big Dat v DS * Modelování podobností a vztahů * Case Study: Detekce Online Fraudu * {{:courses:b0m33bdt:b0m33bdt-9p.pdf|}} ==St 3.1.2018== **Velký zápočtový test** ===== Podmínky pro zápočet a zkoušku ===== **Dvě možnosti pro zápočet** – můžete si vybrat 1. **Vypracování zápočtové úlohy** * zpracování samostatné analýzy velkého datového souboru - je možné přijít s vlastním zadáním * zodpovězení předepsaných a vlastních analytických otázek * výkonnostní měření v závislosti na velikosti vstupu * dokumentace postupu a sepsání závěrečné zprávy (cca 10 stran) * odevzdání dokumentovaných zdrojových kódů – github * klasifikační kritéria: * Analytické výstupy - zodpovězení otázek – 40% * Programátorské postupy a kvalita kódu – 30% * Analytická zpráva a kvalita textu – 30% * Návrhy témat: {{:courses:a4m33bdt:a4m33bdt-ulohy.pdf|}} 2. **Splnění zápočtového testu** * během semestru proběhne 1-2 testy z teorie hodnocené 10 body * závěrečný praktický test bude hodnocen 30 body * pro absolvování je třeba dosáhnout 50% bodů **Ústní zkouška** * ústní zkoušení z teorie s krátkou písemnou přípravou * Výsledná známka vznikne jako součet bodů ze zápočtu a ze zkoušky * Bodovací stupnice viz [[http://cmp.felk.cvut.cz/cmp/courses/ROB/roblec/Novaklasifikacnistupnice0001-1.pdf|klasifikační řád]] fakulty ===== Literatura ===== Hadoop: The Definitive Guide, 4th Edition, by Tom White