{{ :courses:a4m33bdt:bigdata-knows-everything.jpg?700 |}} ===== Odkazy ===== **Body pro zápočet** * Průběžné bodování najdete v této [[https://docs.google.com/spreadsheets/d/14wUcBB2ChIc5E4_mbJiaTBdVMromNcU1UpH6X69wsEQ/edit?usp=sharing|tabulce]]. **Fórum** * Pro komunikaci se studenty jsme se letos rozhodli využít nově zřízené [[https://cw.felk.cvut.cz/forum/forum-1528-page-1.html|školní fórum]]. **Repozitář s úlohami z cvičení** * [[https://github.com/stameser/BDT]] ===== Rozvrh ===== Rozvrh je komplikovanější, popíšu ho podrobně. **Lichý týden** * přednáška středa: 9:15-10:45 KN:E-127 **Sudý týden varianta A** * přednáška středa: 9:15-10:45 KN:E-127 * cvičení středa 2 paralelky * 11:00-12:30 KN:E-307 * 12:45-14:15 KN:E-307 **Sudý týden varianta B** * supercvičení 2 paralelky * 9:15-11:30 * 12:00-14:15 KN:E-307 ===== Rozvrh po týdnech ===== ====St 3.10.2018 Sudý týden varianta A==== Přednáška: **Architektura clusteru - Hadoop** * HW, Hadoop, cluster, HDFS * distribuce dat a výkonu * Cloudera, Hortonworks a ostatní * Správa zdrojů, YARN * {{ :courses:b0m33bdt:b0m33bdt-2p.pdf |}} Cvičení: **//První kroky na clusteru//** ====St 10.10.2018 Lichý týden==== Přednáška: **Úvodní přednáška** * Stručný průlet kurzem, na co se těšit? * Organizace, za co zápočet? * Co jsou big data a kde se tu vzala? * Aplikace Big Data technologií v průmyslu. * Vztah Big Dat a Data Science * Co děláme na Big Datech v Profinitu? * {{ :courses:b0m33bdt:b0m33bdt-1p.pdf |}} ====St 17.10.2018 Sudý týden, varianta B==== Supercvičení: **//Velké opakování, aneb co všechno potřebujeme znát//** * Linuxové nástroje pro proudové zpracování dat * SQL - velké souhrnné opakování * Python - základní seznámení s jazykem * HDFS * {{ :courses:b0m33bdt:b0m33bdt-3c.pdf |}} ====St 24.10.2018 Lichý týden==== Přednáška **Storage** * Unordered List Item* HDFS, formáty ukládání dat, komprese dat * Hive a Impala * Externí a managed tabulky * Partitioning, bucketing * Indexy * Úvod do HBase * {{ :courses:b0m33bdt:b0m33bdt-3p.pdf |}} ====St 31.10.2018 Sudý týden, varianta B==== Supercvičení: **//Hive//** * externí a interní tabulky * create database/table * stored as textfile/parquet ====St 7.11.2018 Lichý týden==== Přednáška **Map+reduce - paradigma a implementace** * Historie paraleleních výpočtů / functionální framework * Distribuce výpočtu mezi nody * Fáze výpočtu: map - combine - reduce * Schémata algoritmů pro map-reduce * Aplikace MapReduce * Alternativy k MapReduce * {{ :courses:b0m33bdt:b0m33bdt-4p.pdf |}} ====St 14.11.2018 Sudý týden, varianta A==== Přednáška **Spark RDD** * Architektura Apache Spark * Spark vs. map-reduce * RDD, Job, Task, Executor * Transformace vs. Akce * Spuštění, konfigurace, příklady * {{ :courses:b0m33bdt:b0m33bdt-5p.pdf |}} Cvičení: **//Spark Map-Reduce//** ====St 21.11.2018 Lichý týden==== Přednáška **Spark SQL a Spark Streaming** * Spark SQL, sqlContext a DataFrame * Spark Streaming * Sprak GraphX * Spark ML * {{ :courses:b0m33bdt:b0m33bdt-6p.pdf |}} ====St 28.11.2018 Sudý týden, varianta B==== Supercvičení: **//Spark SQL//** ====St 5.12.2018 Lichý týden==== Přednáška **Big Datové Architektury** * kontext DWH, * data lake, * transformace dat (ETL) * reporting * typické architektury Big Data řešení * {{ :courses:b0m33bdt:b0m33bdt-7p.pdf |}} ====St 12.12.2018 Sudý týden, varianta A==== Přednáška **Stream Processing + Kafka** * Architektura proudového zpracování * Messaging processor - Apache Kafka * Stream processor - Spark Streaming * HBase * {{ :courses:b0m33bdt:b0m33bdt-8p.pdf |}} Cvičení: **//Stream Processing + Kafka//** * **Druhý malý zápočtový test** (nahrazeno DC) ====St 19.12.2018 Lichý týden==== Přednáška **Big Data Science** * Co je Data Science? * Metodika DS Projektu * Role Big Dat v DS * Modelování podobností a vztahů * Case Study: Detekce Online Fraudu * {{ :courses:b0m33bdt:b0m33bdt-9p.pdf | b0m33bdt-9p.pdf}} ====St 9.1.2018==== **Velký zápočtový test** ===== Podmínky pro zápočet a zkoušku ===== **Dvě možnosti pro zápočet** – můžete si vybrat 1. **Vypracování zápočtové úlohy** * zpracování samostatné analýzy velkého datového souboru - je možné přijít s vlastním zadáním * zodpovězení předepsaných a vlastních analytických otázek * výkonnostní měření v závislosti na velikosti vstupu * dokumentace postupu a sepsání závěrečné zprávy (cca 10 stran) * odevzdání dokumentovaných zdrojových kódů – github * klasifikační kritéria: * Analytické výstupy - zodpovězení otázek – 40% * Programátorské postupy a kvalita kódu – 30% * Analytická zpráva a kvalita textu – 30% * Návrhy témat: {{:courses:a4m33bdt:a4m33bdt-ulohy.pdf|}} 2. **Splnění zápočtového testu** * během semestru proběhne 1-2 testy z teorie hodnocené 10 body * závěrečný praktický test bude hodnocen 30 body * pro absolvování je třeba dosáhnout 50% bodů **Ústní zkouška** * ústní zkoušení z teorie s krátkou písemnou přípravou * Výsledná známka vznikne jako součet bodů ze zápočtu a ze zkoušky * Bodovací stupnice viz [[http://cmp.felk.cvut.cz/cmp/courses/ROB/roblec/Novaklasifikacnistupnice0001-1.pdf|klasifikační řád]] fakulty ===== Literatura ===== Hadoop: The Definitive Guide, 4th Edition, by Tom White