a4m33bdt -- Technologie pro velká data

Rozvrh

Přednášky

středa 9:15 v KN:E-126

Cvičení

101 - středa 9:15, KN:E-307

102 - středa 11:00, KN:E-307

Rozvrh po týdnech

St 22.2.2017 přednáška: Úvodní přednáška

  • Stručný průlet kurzem, na co se těšit?
  • Organizace, za co zápočet?
  • Co jsou big data a kde se tu vzala?
  • Aplikace Big Data technologií v průmyslu.
  • Vztah Big Dat a Data Science
  • Co děláme na Big Datech v Profinitu?

St 1.3.2017 přednáška: Architektura clusteru - Hadoop

  • HW, Hadoop, cluster, HDFS
  • distribuce dat a výkonu
  • Cloudera, Hortonworks a ostatní
  • Správa zdrojů, YARN

St 8.3.2017 přednáška: Storage

  • HDFS – ukládání souborů
  • Souborové formáty
  • Sloupcově orientované úložiště dat
  • Komprese dat
  • Hive/Impala
  • Stručný úvod do HBase

St 15.3.2017 cvičení: První kroky na clusteru

  • vyhlášení témat pro zápočtové práce
  • připojení (bez tunelování)
  • operace na lokálním FS a HDFS v přík. řádce
  • cvičné úlohy - zpracování dat nástroji Linuxu
  • grep, sed, awk, wc, …
  • Ambari, správa služeb, Files View

St 22.3.2017 přednáška: Map+reduce - paradigma a implementace

  • Historie paraleleních výpočtů / functionální framework
  • Distribuce výpočtu mezi nody
  • Fáze výpočtu: map - combine - reduce
  • Schémata algoritmů pro map-reduce
  • Aplikace MapReduce
  • Alternativy k MapReduce

St 29.3.2017 cvičení: Hive

  • externí a interní tabulky
  • create database/table
  • stored as textfile/parquet
  • základní SQL
  • první malá zápočtová písemka(cca 10 otázek)

St 5.4.2017 přednáška Apache Spark

  • RDD a DataFrames: map-reduce a SQL přístup
  • práce se Sparkem pomocí scala / java / python
  • pyspark, spark-shell
  • architektura (módy client a cluster), práce se zdroji

St 12.4.2017 cvičení Map Reduce java úlohy

St 19.4.2017 přednáška Big Data Science

  • Co je Data Science?
  • Metodika DS Projektu
  • Role Big Dat v DS
  • Modelování podobností a vztahů
  • Case Study: Detekce Online Fraudu

St 26.4.2017 cvičení Spark

St 3.5.2017 přednáška Big Data Architektury

St 10.5.2017 cvičení Spark – větší úloha

St 17.5.2017 Rekotorský den

St 24.5.2017 Zápočtový test

Podmínky pro zápočet

Dvě možnosti – můžete si vybrat

1. Vypracování zápočtové úlohy

  • zpracování samostatné analýzy velkého datového souboru - je možné přijít s vlastním zadáním
  • zodpovězení předepsaných a vlastních analytických otázek
  • výkonnostní měření v závislosti na velikosti vstupu
  • dokumentace postupu a sepsání závěrečné zprávy (cca 10 stran)
  • odevzdání dokumentovaných zdrojových kódů – github
  • klasifikační kritéria:
    • Analytické výstupy - zodpovězení otázek – 40%
    • Programátorské postupy a kvalita kódu – 30%
    • Analytická zpráva a kvalita textu – 30%
  • Návrhy témat: a4m33bdt-ulohy.pdf

2. Splnění zápočtového testu

  • během semestru proběhne 1-2 testy z teorie hodnocené 10 body
  • závěrečný praktický test bude hodnocen 30 body
  • pro absolvování je třeba dosáhnout 50% bodů

Známka bude udělena podle klasifikačního řádu fakulty

Literatura

Hadoop: The Definitive Guide, 4th Edition, by Tom White

 
Groups:
courses/a4m33bdt/start.txt · Last modified: 2017/05/10 15:10 by susicmar