Warning
This page is located in archive. Go to the latest version of this course pages. Go the latest version of this page.

Odkazy

Body pro zápočet

  • Průběžné bodování najdete v této tabulce.

Fórum

  • Pro komunikaci se studenty jsme se letos rozhodli využít nově zřízené školní fórum.

Repozitář s úlohami z cvičení

Rozvrh

Rozvrh je komplikovanější, popíšu ho podrobně.

Lichý týden

  • přednáška středa: 9:15-10:45 KN:E-127

Sudý týden varianta A

  • přednáška středa: 9:15-10:45 KN:E-127
  • cvičení středa 2 paralelky
    • 11:00-12:30 KN:E-307
    • 12:45-14:15 KN:E-307

Sudý týden varianta B

  • supercvičení 2 paralelky
    • 9:15-11:30
    • 12:00-14:15 KN:E-307

Rozvrh po týdnech

St 3.10.2018 Sudý týden varianta A

Přednáška: Architektura clusteru - Hadoop

  • HW, Hadoop, cluster, HDFS
  • distribuce dat a výkonu
  • Cloudera, Hortonworks a ostatní
  • Správa zdrojů, YARN

Cvičení: První kroky na clusteru

St 10.10.2018 Lichý týden

Přednáška: Úvodní přednáška

  • Stručný průlet kurzem, na co se těšit?
  • Organizace, za co zápočet?
  • Co jsou big data a kde se tu vzala?
  • Aplikace Big Data technologií v průmyslu.
  • Vztah Big Dat a Data Science
  • Co děláme na Big Datech v Profinitu?

St 17.10.2018 Sudý týden, varianta B

Supercvičení: Velké opakování, aneb co všechno potřebujeme znát

  • Linuxové nástroje pro proudové zpracování dat
  • SQL - velké souhrnné opakování
  • Python - základní seznámení s jazykem
  • HDFS

St 24.10.2018 Lichý týden

Přednáška Storage

  • Unordered List Item* HDFS, formáty ukládání dat, komprese dat
  • Hive a Impala
  • Externí a managed tabulky
  • Partitioning, bucketing
  • Indexy
  • Úvod do HBase

St 31.10.2018 Sudý týden, varianta B

Supercvičení: Hive

  • externí a interní tabulky
  • create database/table
  • stored as textfile/parquet

St 7.11.2018 Lichý týden

Přednáška Map+reduce - paradigma a implementace

  • Historie paraleleních výpočtů / functionální framework
  • Distribuce výpočtu mezi nody
  • Fáze výpočtu: map - combine - reduce
  • Schémata algoritmů pro map-reduce
  • Aplikace MapReduce
  • Alternativy k MapReduce

St 14.11.2018 Sudý týden, varianta A

Přednáška Spark RDD

  • Architektura Apache Spark
  • Spark vs. map-reduce
  • RDD, Job, Task, Executor
  • Transformace vs. Akce
  • Spuštění, konfigurace, příklady

Cvičení: Spark Map-Reduce

St 21.11.2018 Lichý týden

Přednáška Spark SQL a Spark Streaming

  • Spark SQL, sqlContext a DataFrame
  • Spark Streaming
  • Sprak GraphX
  • Spark ML

St 28.11.2018 Sudý týden, varianta B

Supercvičení: Spark SQL

St 5.12.2018 Lichý týden

Přednáška Big Datové Architektury

  • kontext DWH,
  • data lake,
  • transformace dat (ETL)
  • reporting
  • typické architektury Big Data řešení

St 12.12.2018 Sudý týden, varianta A

Přednáška Stream Processing + Kafka

  • Architektura proudového zpracování
  • Messaging processor - Apache Kafka
  • Stream processor - Spark Streaming
  • HBase

Cvičení: Stream Processing + Kafka

  • Druhý malý zápočtový test (nahrazeno DC)

St 19.12.2018 Lichý týden

Přednáška Big Data Science

  • Co je Data Science?
  • Metodika DS Projektu
  • Role Big Dat v DS
  • Modelování podobností a vztahů
  • Case Study: Detekce Online Fraudu

St 9.1.2018

Velký zápočtový test

Podmínky pro zápočet a zkoušku

Dvě možnosti pro zápočet – můžete si vybrat

1. Vypracování zápočtové úlohy

  • zpracování samostatné analýzy velkého datového souboru - je možné přijít s vlastním zadáním
  • zodpovězení předepsaných a vlastních analytických otázek
  • výkonnostní měření v závislosti na velikosti vstupu
  • dokumentace postupu a sepsání závěrečné zprávy (cca 10 stran)
  • odevzdání dokumentovaných zdrojových kódů – github
  • klasifikační kritéria:
    • Analytické výstupy - zodpovězení otázek – 40%
    • Programátorské postupy a kvalita kódu – 30%
    • Analytická zpráva a kvalita textu – 30%
  • Návrhy témat: a4m33bdt-ulohy.pdf

2. Splnění zápočtového testu

  • během semestru proběhne 1-2 testy z teorie hodnocené 10 body
  • závěrečný praktický test bude hodnocen 30 body
  • pro absolvování je třeba dosáhnout 50% bodů

Ústní zkouška

  • ústní zkoušení z teorie s krátkou písemnou přípravou
  • Výsledná známka vznikne jako součet bodů ze zápočtu a ze zkoušky
  • Bodovací stupnice viz klasifikační řád fakulty

Literatura

Hadoop: The Definitive Guide, 4th Edition, by Tom White

courses/b0m33bdt/start.txt · Last modified: 2019/01/09 16:26 by pascepet