Cieľom siedmeho cvičenia je naučiť sa základom práce v prostredí pre distribuované výpočty Apache Spark.
Základným objektom programátorského rozhrania Apache Spark je tzv. SparkContext
.
V interpretri PySpark je kontext automaticky nastavený v premennej sc
.
V nasledujúcom príklade aplikujeme RDD operácie nad dátami z reálnej dátovej množiny KDD Cup.
V prostredí PySpark napíšte príkazy, ktoré:
Napíšte v Pythone pomocou Spark transformácií a akcií kód, ktorý spočíta počet výskytov slov vo vstupnom textovom súbore (ako vstupný súbor môžete použiť text z Úlohy 2.3). Vytvorte ho ako samostatný skript a spustite ho pomocou príkazu spark-submit
.
Pre dáta z dátovej množiny KDD Cup z príkladu na cvičení napíšte kód, ktorý vypíše pre nominálne atribúty (atribúty s indexmi 1,2,3) počet ich rôznych hodnôt.
Pre dáta z dátovej množiny KDD Cup z príkladu na cvičení napíšte kód, ktorý vypočíta pre všetky záznamy s cieľovým atribútom (index 41) s hodnotou normal priemerný a celkový čas pripojenia (atribút s indexom 0).