Všeobecné informácie

Anotácia: Študent získa základné poznatky z oblasti spracovania veľkých dát, metód, prístupov a technológií, ktoré sa v tejto oblasti využívajú. Študent nadobudne znalosti o distribuovaných, NoSQL a in-memory databázových systémoch, metódach a technológiách paralelného a distribuovaného počítania. Študent získa základné zručnosti pre návrh a implementáciu aplikácií pre spracovanie veľkých dát.

Podmienky zápočtu:

Prednášky

Prednášky sú v miestnosti B-519 na Letnej 9.

TýždeňPopisOdkazy/poznámky
1.Úvod do problematiky spracovania veľkých dát stiahnuť PDF
2.Paralelné výpočty CPU, GPU stiahnuť PDF
3.Distribuované databázy a súborové systémy I stiahnuť PDF
4.Distribuované databázy a súborové systémy II stiahnuť PDF
5.Architektúry systémov pre spracovanie veľkých dát I stiahnuť PDF
6.Architektúry systémov pre spracovanie veľkých dát II stiahnuť PDF
7.Technológie spracovania veľkých dát I stiahnuť PDF
8.Technológie spracovania veľkých dát II stiahnuť PDF
9.Technológie spracovania veľkých dát III stiahnuť PDF
10.Distribuované strojové učenie I stiahnuť PDF
11.Distribuované strojové učenie II stiahnuť PDF
12.Prípadové štúdie I
13.Prípadové štúdie II

Cvičenia

Cvičenia sú v miestnosti B-11 na Boženy Němcovej 1.

TýždeňPopisOdkazy/poznámky
1.Práca v prostredí systému Linux
2.Úvod do programovacieho jazyka Python I
3.Úvod do programovacieho jazyka Python II
4.Práca s dokumentovou databázou MongoDB
5.Distribuované nasadenie MongoDB
6.Test 1 (10 bodov), Úvod do distribuovaného prostredia Apache Spark
7.Spracovanie dát v prostredí Apache Spark I
8.Spracovanie dát v prostredí Apache Spark II
9. ----- Veľkonočné sviatky -----
10.Učenie modelov pomocou knižnice MLlib
11.Spracovanie prúdov dát pomocou Apache Spark Streaming
12.Test 2 (10 bodov), Konzultácie k zadaniam
13.Odovzdávanie zadaní

Zadanie

Zadanie je skupinové (v skupine môžu byť max. 4 študenti) za 20 bodov.

Spúšťanie skriptov na klastri:

V prípade potreby môžete modely na celom datasete vytvárať na klastri. Prihlásiť sa naň môžete pomocou ssh, IP adresa: 147.232.202.81, prihlasovacie údaje sú user: student, heslo: student. V domovskom adresári používateľa student si vytvorte podadresár kde uložíte svoje skripty. Dataset na server NEUPLOADUJTE, dáta sú v adresári /home/student/data

Skripty môžete na klastri spúšťať pomocou spark-submit v distribuovanom režime. Pre využitie distribuovaného prostredia je potrebné nastaviť hodnotu master parametra na spark://147.232.202.81:7077. Spustenie skriptu potom môže vyzerať takto:

spark-submit --master spark://147.232.202.81:7077 skript.py

Odovzdávanie zadaní:

Zadanie je potrebné odovzdať najneskôr v 13. týždňi.

Podklady a užitočné zdroje