Objavovanie znalostí


Rozsah: 2/1-1zs
Určený pre: 1. ročník inžinierskeho štúdia - LS, študijný odbor Hospodárska informatika (povinný)
                     2. ročník inžinierskeho štúdia - LS, študijný odbor Inteligentné systémy (povinný)
Prerekvizity: základné znalosti o databázach

Prednášajúci:
prof. Ing. Ján Paralič, PhD., e-mail: Jan.Paralic at tuke.sk

Cvičiaci:
Ing. Peter Bednár, PhD., e-mail: Peter.Bednar at tuke.sk
               
Ing. Ľudmila Pusztová, e-mail: Ludmila.Pusztova.2 at tuke.sk

    Anotácia: Základné pojmy z oblasti objavovania znalostí a dolovania v dátach. Proces objavovania znalostí, podrobná náplň jednotlivých fáz tohto procesu v zmysle metodiky CRISP-DM. Metódy dolovania v dátach, ich rozdelenie podľa rôznych kritérií. Prediktívne dolovanie v dátach. Metriky pre meranie podobnosti a vzdialenosti pre rôzne typy dát. Analýza zhlukov. Detekcia anomálií. Asociačné pravidlá.


Prednášky       Cvičenia       Spôsob hodnotenia       Ďalšie zdroje


Podklady k prednáškam

Téma

Podklady k prednáškam

1.  Proces objavovania znalostí (OZ) v databázach. Typické aplikačné oblasti OZ. Stručný popis jednotlivých krokov OZ. Základné typy dolovania v dátach (DM). Štandardizácia procesu OZ. Ukážka pôvodného softvéru vyvinutého na KKUI: KDD Package.

Proces_OZ.pdf

1.10.2019 v čase 10:00–11:45, Aula Maxima TUKE: Tanmay Bakshi,15-ročný kanadský autor kníh, architekt systémov umelej inteligencie a strojového učenia, TED spíker, odborník a vývojár Google pre strojové učenie a IBM Champion for Cloud. Svojimi prednáškami už oslovil viac ako 200 000 manažérov, vývojárov a účastníkov konferencií na celom svete, študentov na univerzitách a školách. Prednášal v Organizácii spojených národov a spoločnostiach akými sú NASSCOM, Linux Foundation, Apple, SAP, IBM a Walmart. Je spoluautor knihy Kognitívne výpočty s IBM Watson. Registrujte sa na intern@amcham.sk, počet miesť je obmedzený!

 

2. Pochopenie dát. Základné typy dát. Dáta bez závislostí (Multidimenzionálne dáta (kvantitatívne, kategorické, zmiešané, binárne); Textové dáta). Dáta so závislosťami (časové rady, diskrétne sekvencie, priestorové dáta, sieťové (grafové) dáta). Pochopenie dát (2. fáza CRISP-DM): Charakteristiky pre jednotlivé atribúty. Závislosť medzi jednotlivými atribútmi.

Pochopenie-dat.pdf

3. Príprava dát. I. Extrakcia príznakov a ich portabilita (transformácie jedného dátového typu na iný). II. Čistenie dát: Vysporiadanie sa s chýbajúcimi hodnotami. Ošetrenie chybných vstupov. Škálovanie a normalizácia. III. Redukcia dát: Vzorkovanie. Výber podskupiny príznakov. Redukcia dát rotáciou osí. Redukcia dát transformáciou typov.

Priprava-dat.pdf

4. Prediktívne dolovanie v dátach 1. Základné pojmy, dve fázy klasifikácie. Výber príznakov pre klasifikáciu. Rozhodovacie stromy, pravidlové klasifikátory. Pravdepodobnostná klasifikácia: Bayesovská klasifikácia a logistická regresia. Klasifikátory na princípe k-najbližších susedov.

Klasifikacia1.pdf

5. Prediktívne dolovanie v dátach 2. Kvantifikácia výsledku klasifikácie. Náročné klasifikačné scenáre: Klasifikácia do viacerých tried. Klasifikácia zriedkavých tried. Škálovateľná klasifikácia. Predikcia (numerický cieľový atribút). Lineárna a polynomiálna regresia. Regresné stromy. Prediktory na princípe k-najbližších susedov. Rozšírená klasifikácia: Semi-kontrolované učenie. Aktívne učenie. Zložená klasifikácia (učenie súborom metód).

 

6. Podobnosť a vzdialenosť. Multidimenzionálne dáta: kvantitatívne dáta, Lp normy a ich vlastnosti. Na porovnávaní založená podobnosť (match-based similarity). Kategorické dáta, zmiešané kvantitatívne a kategorické dáta. Podobnosť textových dát (text similarity measures). Podobnosť časových dát (temporal similarity measures). Mierky podobnosti pre diskrétne sekvencie. Mierky podobnosti grafov (graph similarity measures).

 

7. Analýza zhlukov. Úvod, príklady aplikácií. Výber príznakov pre zhlukovanie: filtrovacie, obálkové a hybridné prístupy. Metódy zhlukovania založené na výbere reprezentantov zhlukov (k-stredové metódy): k-means, Mahalanobisov k-means, k-medians, k-medoids. Metódy hierarchického zhlukovania: aglomeratívne a divizívne metódy. Ďalšie metódy zhlukovania: na mriežke založené zhlukovanie (grid-based methods), na hustote založené zhlukovanie (density-based methods), na grafoch založené zhlukovanie (graph-based methods). Validácia zhlukov: interné a externé kritériá validity zhlukov.

 

8. Detekcia anomálií. Úvod, príklady aplikácií. Analýza extrémnych hodnôt (extreme value analysis): Jednorozmerná (univariate) a viacrozmerná (multivariate) analýza extrémnych hodnôt. Metódy založené na hĺbke (depth-based methods). Zhlukovanie pre detekciu anomálií. Metódy založené na vzdialenosti (distance-based outlier methods). Metódy korigujúce lokálnu vzdialenosť: LOF (Local Outlier Factor) a Instance-specific Mahalanobis distance. Metódy založené na hustote (density-based methods). Validita anomálií: ROC (Receiver Operating Characteristics).

 

9. Asociačné pravidlá. Základné pojmy: analýza nákupného košíka, položky, položkové množiny, frekventované položkové množiny. Asociačné pravidlá a ich zaujímavosť: podpora, spoľahlivosť (nesymetrická mierka), lift (symetrická mierka). Princíp monotónnosti podpory (downward closure property). Algoritmus Apriori na hľadanie frekventovaných množín položiek. Generovanie asociačných pravidiel z frekventovaných množín položiek. Algoritmy založené na enumeračnom strome, algoritmy využívajúce vertikálnu reprezentáciu. Ďalšie mierky zaujímavosti asociačných pravidiel: bitovo symetrické mierky spoľahlivosti. Ďalšie rozšírenia: dolovanie negatívnych vzorov. Vzorkovanie, hierarchické asociačné pravidlá, kvantitatívne asociačné pravidlá.

 

11. Pozvaná prednáška z praxe

 

12. Zhrnutie a opakovanie základného učiva

 

13. Predtermín

 

 

 

 


Cvičenia

Týždeň

Náplň cvičenia

Poznámky

1.

(23.09. – 27.09)

-         Oboznámenie sa s organizáciou cvičení, modelom práce na zadaniach a spôsobom ich hodnotenia.

-         Overenie existujúcich poznatkov pomocou písomnej previerky.

-         Prvá fáza CRISP-DM, načítanie dát v Rapid Mineri

 

2.

(30.09. – 04.10.)

Pochopenie dát

 

3.

(07.10. – 11.10.)

Príprava dát

 

4.

(14.10. – 18.10.)

Projektová práca, konzultácie

1. písomná previerka vedomostí z prednášok (5b) – riadny termín

5.

(21.10. – 25.10.)

Modelovanie 1

 

6.

(28.10. – 01.11.)

Projektová práca, konzultácie

Individuálne konzultácie

7.

(04.11. – 08.11.)

Modelovanie 2

 

8.

(11.11. – 15.11.)

Vyhodnotenie modelov

9.

(18.11. – 22.11.)

Projektová práca, konzultácie

1. písomná previerka vedomostí z prednášok (max. 4b) – opravný termín, platí výsledok opravy

10.

(25.11. – 29.11)

Popisné dolovanie

 

11.

(02.12. – 06.12.)

Projektová práca, konzultácie

2. písomná previerka vedomostí z prednášok (max. 5b) – riadny termín

 

12.

(09.12 – 13.12.)

Testovanie znalostí práce s nástrojom (5b)

Odovzdávanie zadaní na cvičení (max. 25b)

13.

(16.12. – 20.12.)

Projektová práca, konzultácie

2. písomná previerka vedomostí z prednášok (max. 4b) – opravný termín, platí výsledok opravy

 


Spôsob hodnotenia

        ---------------------------------------------
          Spolu za cvičenia - k zápočtu: max. 40 bodov

        ---------------------------------------------
          Spolu: max. 100 bodov


Ďalšie zdroje:

  1. J. Paralič: Objavovanie znalostí v databázach. Elfa, Košice 2003, ISBN 80-89066-60-7, 80 s.
  2. Charu C. Aggarwal: Data Mining: The Textbook. Springer, 2015
  3. G. James, D. Witten, T. Hastie and R. Tibshirani: An Introduction to Statistical Learning with Applications in R. Springer, 2015.
  4. Metodológia CRISP-DM: schéma a podrobný popis alebo kratší tutoriál
  5. KDnuggets. Napr. aj Analytics Industry Overview - Gregory Piatetsky - pozvaná prednáška na SuperData Summit 2011 v San Diegu
  6. Systém KDD Package pre podporu celého procesu objavovania znalostí v databázych, vivinutý na Katedre kybernetiky a umelej inteligencei, FEI, TU v Košiciach v rámci medzinárodného výskumného projektu GOAL: On-line analýza geografických informácií je voľne stiahnuteľný a k dispozícii na výuku, alebo experimentovanie.
  7. J. Paralič, K. Furdík, G. Tutoky, P. Bednár, M. Sarnovský, P. Butka, F. Babič: Dolovanie znalostí z textov. Equilibria, s.r.o., Košice, 2010, 184 s.
  8. Elektronické databázy zahraničné (autorizovaný prístup do databáz sprostredkovaný univerzitnou knižnicou TU. Prístup do väčšiny externých elektronických databáz (bibliografické databázy, úplné texty článkov z časopisov a zborníkov, online knihy, ...) je viazaný na IP adresu proxy servera tuke.sk (iba v rámci TU) a je potrebné správne nastavenie prehliadača.
  9. Štatistické tabuľky