Cvičenie 7 - Spracovanie dát v prostredí Apache Spark

Cieľom siedmeho cvičenia je naučiť sa základom práce v prostredí pre distribuované výpočty Apache Spark.

Práca s RDD - Resilient Distributed Dataset

Základným objektom programátorského rozhrania Apache Spark je tzv. SparkContext. V interpretri PySpark je kontext automaticky nastavený v premennej sc.

V nasledujúcom príklade aplikujeme RDD operácie nad dátami z reálnej dátovej množiny KDD Cup.

Úlohy

Úloha 7.1

V prostredí PySpark napíšte príkazy, ktoré:

  1. Pre zvolené pole číselných hodnôt vypočítajú sumu párnych čísiel.
  2. Pre zvolené pole dvojíc kľúč-hodnota, kde hodnota je číslo vypočítajú sumu štvorcov hodnôt pre každý kľúč.

Úloha 7.2

Napíšte v Pythone pomocou Spark transformácií a akcií kód, ktorý spočíta počet výskytov slov vo vstupnom textovom súbore (ako vstupný súbor môžete použiť text z Úlohy 2.3). Vytvorte ho ako samostatný skript a spustite ho pomocou príkazu spark-submit.

Úloha 7.3

Pre dáta z dátovej množiny KDD Cup z príkladu na cvičení napíšte kód, ktorý vypíše pre nominálne atribúty (atribúty s indexmi 1,2,3) počet ich rôznych hodnôt.

Úloha 7.4

Pre dáta z dátovej množiny KDD Cup z príkladu na cvičení napíšte kód, ktorý vypočíta pre všetky záznamy s cieľovým atribútom (index 41) s hodnotou normal priemerný a celkový čas pripojenia (atribút s indexom 0).