Objavovanie znalostí


Rozsah: 2/1-1zs
Určený pre: 1. ročník inžinierskeho štúdia - LS, študijný odbor Hospodárska informatika (povinný)
                     2. ročník inžinierskeho štúdia - LS, študijný odbor Inteligentné systémy (povinný)
Prerekvizity: základné znalosti o databázach

Prednášajúci:
prof. Ing. Ján Paralič, PhD., e-mail: Jan.Paralic at tuke.sk

Cvičiaci:
Ing. Peter Bednár, PhD., e-mail: Peter.Bednar at tuke.sk
               
Ing. Ľudmila Pusztová, e-mail: Ludmila.Pusztova.2 at tuke.sk

    Anotácia: Základné pojmy z oblasti objavovania znalostí a dolovania v dátach. Proces objavovania znalostí, podrobná náplň jednotlivých fáz tohto procesu v zmysle metodiky CRISP-DM. Metódy dolovania v dátach, ich rozdelenie podľa rôznych kritérií. Prediktívne dolovanie v dátach. Metriky pre meranie podobnosti a vzdialenosti pre rôzne typy dát. Analýza zhlukov. Detekcia anomálií. Asociačné pravidlá.


Prednášky       Cvičenia       Spôsob hodnotenia       Ďalšie zdroje


Podklady k prednáškam

Téma

Podklady k prednáškam

1.  Proces objavovania znalostí (OZ) v databázach. Typické aplikačné oblasti OZ. Stručný popis jednotlivých krokov OZ. Základné typy dolovania v dátach (DM). Štandardizácia procesu OZ. Ukážka pôvodného softvéru vyvinutého na KKUI: KDD Package.

Proces_OZ.pdf

1.10.2019 v čase 10:00–11:45, Aula Maxima TUKE: Tanmay Bakshi,15-ročný kanadský autor kníh, architekt systémov umelej inteligencie a strojového učenia, TED spíker, odborník a vývojár Google pre strojové učenie a IBM Champion for Cloud. Svojimi prednáškami už oslovil viac ako 200 000 manažérov, vývojárov a účastníkov konferencií na celom svete, študentov na univerzitách a školách. Prednášal v Organizácii spojených národov a spoločnostiach akými sú NASSCOM, Linux Foundation, Apple, SAP, IBM a Walmart. Je spoluautor knihy Kognitívne výpočty s IBM Watson.

 

2. Pochopenie dát. Základné typy dát. Dáta bez závislostí (Multidimenzionálne dáta (kvantitatívne, kategorické, zmiešané, binárne); Textové dáta). Dáta so závislosťami (časové rady, diskrétne sekvencie, priestorové dáta, sieťové (grafové) dáta). Pochopenie dát (2. fáza CRISP-DM): Charakteristiky pre jednotlivé atribúty. Závislosť medzi jednotlivými atribútmi.

Pochopenie-dat.pdf

3. Príprava dát. I. Extrakcia príznakov a ich portabilita (transformácie jedného dátového typu na iný). II. Čistenie dát: Vysporiadanie sa s chýbajúcimi hodnotami. Ošetrenie chybných vstupov. Škálovanie a normalizácia. III. Redukcia dát: Vzorkovanie. Výber podskupiny príznakov. Redukcia dát rotáciou osí. Redukcia dát transformáciou typov.

Priprava-dat.pdf

4. Prediktívne dolovanie v dátach 1. Základné pojmy, dve fázy klasifikácie. Výber príznakov pre klasifikáciu. Rozhodovacie stromy, pravidlové klasifikátory. Pravdepodobnostná klasifikácia: Bayesovská klasifikácia a logistická regresia. Klasifikátory na princípe k-najbližších susedov.

Klasifikacia1.pdf

5. Prediktívne dolovanie v dátach 2. Kvantifikácia výsledku klasifikácie. Náročné klasifikačné scenáre: Klasifikácia do viacerých tried. Klasifikácia zriedkavých tried. Škálovateľná klasifikácia. Predikcia (numerický cieľový atribút). Lineárna a polynomiálna regresia. Regresné stromy. Prediktory na princípe k-najbližších susedov. Rozšírená klasifikácia: Semi-kontrolované učenie. Aktívne učenie. Zložená klasifikácia (učenie súborom metód).

Klasifikacia2.pdf

6. Podobnosť a vzdialenosť. Multidimenzionálne dáta: kvantitatívne dáta, Lp normy a ich vlastnosti. Na porovnávaní založená podobnosť (match-based similarity). Kategorické dáta, zmiešané kvantitatívne a kategorické dáta. Podobnosť textových dát (text similarity measures). Podobnosť časových dát (temporal similarity measures). Mierky podobnosti pre diskrétne sekvencie. Mierky podobnosti grafov (graph similarity measures).

Podobnost-vzdialenost.pdf

19.11.2019 Pozvaná prednáška: Budúcnosť nie je v historických dátach, máme ju v rukách (Ing. Jozef Kováč)

Objavovanie znalostí vs. Deep learning. Dolovanie dát o výkone modelov. Riešenie problémov, za ktoré sú firmy ochotné zaplatiť. Objavovanie v dátach vs. kreatívne experimenty. Soft skills užitočné pre komunikáciu s klientmi.

 

8. Analýza zhlukov. Úvod, príklady aplikácií. Výber príznakov pre zhlukovanie: filtrovacie, obálkové a hybridné prístupy. Metódy zhlukovania založené na výbere reprezentantov zhlukov (k-stredové metódy): k-means, Mahalanobisov k-means, k-medians, k-medoids. Metódy hierarchického zhlukovania: aglomeratívne a divizívne metódy. Ďalšie metódy zhlukovania: na mriežke založené zhlukovanie (grid-based methods), na hustote založené zhlukovanie (density-based methods), na grafoch založené zhlukovanie (graph-based methods). Validácia zhlukov: interné a externé kritériá validity zhlukov.

Zhlukovanie.pdf

9. Detekcia anomálií. Úvod, príklady aplikácií. Analýza extrémnych hodnôt (extreme value analysis): Jednorozmerná (univariate) a viacrozmerná (multivariate) analýza extrémnych hodnôt. Metódy založené na hĺbke (depth-based methods). Zhlukovanie pre detekciu anomálií. Metódy založené na vzdialenosti (distance-based outlier methods). Metódy korigujúce lokálnu vzdialenosť: LOF (Local Outlier Factor) a Instance-specific Mahalanobis distance. Metódy založené na hustote (density-based methods). Validita anomálií: ROC (Receiver Operating Characteristics).

Detekcia-anomalii.pdf

10. Asociačné pravidlá. Základné pojmy: analýza nákupného košíka, položky, položkové množiny, frekventované položkové množiny. Asociačné pravidlá a ich zaujímavosť: podpora, spoľahlivosť (nesymetrická mierka), lift (symetrická mierka). Princíp monotónnosti podpory (downward closure property). Algoritmus Apriori na hľadanie frekventovaných množín položiek. Generovanie asociačných pravidiel z frekventovaných množín položiek. Algoritmy založené na enumeračnom strome, algoritmy využívajúce vertikálnu reprezentáciu. Ďalšie mierky zaujímavosti asociačných pravidiel: bitovo symetrické mierky spoľahlivosti. Ďalšie rozšírenia: dolovanie negatívnych vzorov. Vzorkovanie, hierarchické asociačné pravidlá, kvantitatívne asociačné pravidlá.

Asociacne-pravidla.pdf

11. Zhrnutie a opakovanie základného učiva

OZ-opakovanie.pdf

 


Cvičenia

Týždeň

Náplň cvičenia

Poznámky

1.

(23.09. – 27.09)

-         Oboznámenie sa s organizáciou cvičení, modelom práce na zadaniach a spôsobom ich hodnotenia.

-         Overenie existujúcich poznatkov pomocou písomnej previerky.

-         Prvá fáza CRISP-DM, načítanie dát v Rapid Mineri

 

2.

(30.09. – 04.10.)

Pochopenie dát

 

3.

(07.10. – 11.10.)

Príprava dát

 

4.

(14.10. – 18.10.)

Projektová práca, konzultácie

1. písomná previerka vedomostí z prednášok (5b) – riadny termín

5.

(21.10. – 25.10.)

Modelovanie 1

 

6.

(28.10. – 01.11.)

Projektová práca, konzultácie

Individuálne konzultácie

7.

(04.11. – 08.11.)

Modelovanie 2

 

8.

(11.11. – 15.11.)

Vyhodnotenie modelov

9.

(18.11. – 22.11.)

Projektová práca, konzultácie

1. písomná previerka vedomostí z prednášok (max. 4b) – opravný termín, platí výsledok opravy

10.

(25.11. – 29.11)

Popisné dolovanie

 

11.

(02.12. – 06.12.)

Projektová práca, konzultácie

2. písomná previerka vedomostí z prednášok (max. 5b) – riadny termín

 

12.

(09.12 – 13.12.)

Testovanie znalostí práce s nástrojom (5b)

Odovzdávanie zadaní na cvičení (max. 25b)

13.

(16.12. – 20.12.)

Projektová práca, konzultácie

2. písomná previerka vedomostí z prednášok (max. 4b) – opravný termín, platí výsledok opravy

 


Spôsob hodnotenia

        ---------------------------------------------
          Spolu za cvičenia - k zápočtu: max. 40 bodov

        ---------------------------------------------
          Spolu: max. 100 bodov


Ďalšie zdroje:

  1. J. Paralič: Objavovanie znalostí v databázach. Elfa, Košice 2003, ISBN 80-89066-60-7, 80 s.
  2. Charu C. Aggarwal: Data Mining: The Textbook. Springer, 2015
  3. G. James, D. Witten, T. Hastie and R. Tibshirani: An Introduction to Statistical Learning with Applications in R. Springer, 2015.
  4. Metodológia CRISP-DM: schéma a podrobný popis alebo kratší tutoriál
  5. KDnuggets. Napr. aj Analytics Industry Overview - Gregory Piatetsky - pozvaná prednáška na SuperData Summit 2011 v San Diegu
  6. Systém KDD Package pre podporu celého procesu objavovania znalostí v databázych, vivinutý na Katedre kybernetiky a umelej inteligencei, FEI, TU v Košiciach v rámci medzinárodného výskumného projektu GOAL: On-line analýza geografických informácií je voľne stiahnuteľný a k dispozícii na výuku, alebo experimentovanie.
  7. J. Paralič, K. Furdík, G. Tutoky, P. Bednár, M. Sarnovský, P. Butka, F. Babič: Dolovanie znalostí z textov. Equilibria, s.r.o., Košice, 2010, 184 s.
  8. Elektronické databázy zahraničné (autorizovaný prístup do databáz sprostredkovaný univerzitnou knižnicou TU. Prístup do väčšiny externých elektronických databáz (bibliografické databázy, úplné texty článkov z časopisov a zborníkov, online knihy, ...) je viazaný na IP adresu proxy servera tuke.sk (iba v rámci TU) a je potrebné správne nastavenie prehliadača.
  9. Štatistické tabuľky