Všeobecné informácie

Anotácia: Študent získa základné poznatky z oblasti spracovania veľkých dát, metód, prístupov a technológií, ktoré sa v tejto oblasti využívajú. Študent nadobudne znalosti o distribuovaných, NoSQL a in-memory databázových systémoch, metódach a technológiách paralelného a distribuovaného počítania. Študent získa základné zručnosti pre návrh a implementáciu aplikácií pre spracovanie veľkých dát.

Podmienky zápočtu:

Prednášky

TýždeňPopisOdkazy/poznámky
1.Úvod do problematiky spracovania veľkých dát stiahnuť PDF
2.Paralelné výpočty CPU, GPU stiahnuť PDF
3.Distribuované databázy a súborové systémy I stiahnuť PDF
4.Distribuované databázy a súborové systémy II stiahnuť PDF
5.Architektúry systémov pre spracovanie veľkých dát I stiahnuť PDF
6.Pozvaná prednáška: Big data processing and integration (Pavol Dudrík, GolbalLogic)
7.Architektúry systémov pre spracovanie veľkých dát II stiahnuť PDF
8.Technológie spracovania veľkých dát I stiahnuť PDF
9.Technológie spracovania veľkých dát II stiahnuť PDF
10. Technológie spracovania veľkých dát III stiahnuť PDF
11. Distribuované strojové učenie I stiahnuť PDF
12.Distribuované strojové učenie II
13.Prípadové štúdie

Cvičenia

TýždeňPopisOdkazy/poznámky
1. Úvod do programovacieho jazyka Python I
2.Úvod do programovacieho jazyka Python II
3.Práca s dokumentovou databázou MongoDB
4. ----- Konzultácie zadaní -----
5.Spracovanie dát v prostredí Apache Spark I
6.Spracovanie dát v prostredí Apache Spark II
7.Test 1 (10 bodov)
8. Učenie modelov pomocou knižnice MLlib I
9. Učenie modelov pomocou knižnice MLlib II
10. Spracovanie prúdov dát pomocou Apache Spark Streaming
11. Konzultácie k zadaniam
12.Test 2 (10 bodov), Konzultácie k zadaniam
13. Odovzdávanie zadaní

Zadanie

Zadanie je skupinové (v skupine môžu byť max. 3 študenti) za 20 bodov.

Dataset

V rámci zadania budete pracovať s dátami, ktoré popisujú záznamy o meškaní letov pri odlete na letiskách v USA v roku 2019. Cieľový atribút je binárny a špecifikuje, či daný let mal pri odlete meškanie väčšie ako 15 minút alebo nie (1 ak áno). K ostatným atribútom definujúcim parametre letu je možné integrovať dáta o počasí na letiskú, ktoré boli zozbierané separátne (pokrytých je ale iba asi 90 percent letísk).

Dataset nájdete na Datalabe, v adresári datalab/TSVD/dataset/

Nájdete tam nasledujúce súbory:

  • full_data_flightdelay.csv: dátový súbor obsahujúci informácie o letoch a meškaniach. Cieľový atribút je DEP_DEL15
  • data_documentation.txt: krátky popis významu jednotlivých atribútov 
  • airport_weather_2019.csv: počasie na letiskách
  • GHCND_documentation.pdf: tu nájdete interpretáciu údajov o počasí

    Úloha

    Všetky kroky zadania musia byť naprogramované v prostredí Apache Spark v jazyku Python.

    Bodové ohodnotenie zadania:

    Integrácia dát (3b)

    • Integrácia datasetu - vhodne zakomponujte zvolené informácie o počasí.
    • Sampling – vytvorenie vzorky z datasetu (veľkosti napr. 10%) pri zachovaní rozloženia cieľového atribútu.
    • Rozdelenie datasetu na trénovaciu a testovaciu množinu (napr. v pomere 60/40).

    Predspracovanie (7b)

    • Transformácia nominálnych atribútov na numerické
    • Transformácia numerických atribútov na nominálne
    • Vypočítanie pomerového kritéria – informačného zisku voči cieľovému atribútu (klasifikačná úloha), pre nominálne atribúty
    • Vypočítanie štatistík pre numerické atribúty
    • Vytvorenie histogramov pre nominálne atribúty
    • Spracovanie chýbajúcich hodnôt (napr. ich nahradenie priemermi, atď.)

    Modelovanie - Vytvorenie popisných modelov (3b):

    • Vytvorte k-means clustering model
    • Pomocou vytvoreného modelu detekujte anomálie

    Modelovanie - Vytvorenie klasifikačných modelov typu (aspoň jeden model každého typu)(4b):

    • Decision tree model
    • Linear SVM
    • Naive Bayes model
    • Ensembles of decision trees (Random Forests, Gradient-boosted trees)

    Vyhodnotenie (3b)

    • Natrénovanie klasifikačného modelu na trénovacej množine a jeho evaluáciu na testovacej množine.
    • Klasifikačný model vyhodnocujte použitím kontigenčnej tabuľky a vypočítaním metrík presnosti, návratnosti, F1 a MCC (Matthews Correlation Coefficient).

    Odovzdávanie zadaní:

    Zadanie je potrebné odovzdať do konca 13. týždňa semestra cez MS Teams.

    Podklady a užitočné zdroje