====== a4m33bdt -- Technologie pro velká data ====== {{ :courses:a4m33bdt:bigdata-knows-everything.jpg?800 |}} ===== Rozvrh ===== ===Přednášky=== středa 9:15 v KN:E-126 ===Cvičení=== 101 - středa 9:15, KN:E-307 102 - středa 11:00, KN:E-307 ===== Rozvrh po týdnech ===== St 22.2.2017 přednáška: **Úvodní přednáška** * Stručný průlet kurzem, na co se těšit? * Organizace, za co zápočet? * Co jsou big data a kde se tu vzala? * Aplikace Big Data technologií v průmyslu. * Vztah Big Dat a Data Science * Co děláme na Big Datech v Profinitu? * {{:courses:a4m33bdt:a4m33bdt-1p.pdf|}} St 1.3.2017 přednáška: **Architektura clusteru - Hadoop** * HW, Hadoop, cluster, HDFS * distribuce dat a výkonu * Cloudera, Hortonworks a ostatní * Správa zdrojů, YARN * {{:courses:a4m33bdt:a4m33bdt-2p.pdf|}} St 8.3.2017 přednáška: **Storage** * HDFS – ukládání souborů * Souborové formáty * Sloupcově orientované úložiště dat * Komprese dat * Hive/Impala * Stručný úvod do HBase * {{:courses:a4m33bdt:a4m33bdt-3p.pdf|}} St 15.3.2017 cvičení: **//První kroky na clusteru//** * vyhlášení témat pro zápočtové práce * připojení (bez tunelování) * operace na lokálním FS a HDFS v přík. řádce * cvičné úlohy - zpracování dat nástroji Linuxu * grep, sed, awk, wc, ... * Ambari, správa služeb, Files View * {{:courses:a4m33bdt:a4m33bdt-4c.pdf|}} St 22.3.2017 přednáška: **Map+reduce - paradigma a implementace** * Historie paraleleních výpočtů / functionální framework * Distribuce výpočtu mezi nody * Fáze výpočtu: map - combine - reduce * Schémata algoritmů pro map-reduce * Aplikace MapReduce * Alternativy k MapReduce * {{:courses:a4m33bdt:a4m33bdt-4p.pdf|}} St 29.3.2017 cvičení: **//Hive//** * externí a interní tabulky * create database/table * stored as textfile/parquet * základní SQL * **první malá zápočtová písemka**(cca 10 otázek) * {{:courses:a4m33bdt:a4m33bdt-5c.pdf|}} St 5.4.2017 přednáška **Apache Spark** * RDD a DataFrames: map-reduce a SQL přístup * práce se Sparkem pomocí scala / java / python * pyspark, spark-shell * architektura (módy client a cluster), práce se zdroji * {{:courses:a4m33bdt:a4m33bdt-5p.pdf|}} St 12.4.2017 cvičení **//Map Reduce java úlohy//** * {{:courses:a4m33bdt:a4m33bdt-7c.pdf|}} St 19.4.2017 přednáška **Big Data Science** * Co je Data Science? * Metodika DS Projektu * Role Big Dat v DS * Modelování podobností a vztahů * Case Study: Detekce Online Fraudu * {{:courses:a4m33bdt:a4m33bdt-6p.pdf|}} St 26.4.2017 cvičení **//Spark//** * {{:courses:a4m33bdt:a4m33bdt-9c.pdf|}} St 3.5.2017 přednáška **Big Data Architektury** * {{:courses:a4m33bdt:a4m33bdt-7p.pdf|}} St 10.5.2017 cvičení **//Spark -- větší úloha//** * **druhá malá zápočtová písemka**(cca 10 otázek) * {{:courses:a4m33bdt:a4m33bdt-11c.pptx|}} St 17.5.2017 **Rekotorský den** St 24.5.2017 **Zápočtový test** ... ===== Podmínky pro zápočet ===== **Dvě možnosti** – můžete si vybrat 1. **Vypracování zápočtové úlohy** * zpracování samostatné analýzy velkého datového souboru - je možné přijít s vlastním zadáním * zodpovězení předepsaných a vlastních analytických otázek * výkonnostní měření v závislosti na velikosti vstupu * dokumentace postupu a sepsání závěrečné zprávy (cca 10 stran) * odevzdání dokumentovaných zdrojových kódů – github * klasifikační kritéria: * Analytické výstupy - zodpovězení otázek – 40% * Programátorské postupy a kvalita kódu – 30% * Analytická zpráva a kvalita textu – 30% * Návrhy témat: {{:courses:a4m33bdt:a4m33bdt-ulohy.pdf|}} 2. **Splnění zápočtového testu** * během semestru proběhne 1-2 testy z teorie hodnocené 10 body * závěrečný praktický test bude hodnocen 30 body * pro absolvování je třeba dosáhnout 50% bodů Známka bude udělena podle [[http://cmp.felk.cvut.cz/cmp/courses/ROB/roblec/Novaklasifikacnistupnice0001-1.pdf|klasifikačního řádu]] fakulty ===== Literatura ===== Hadoop: The Definitive Guide, 4th Edition, by Tom White