Objavovanie znalostí


Rozsah: 2/1-1zs
Určený pre: 1. ročník inžinierskeho štúdia - LS, študijný odbor Hospodárska informatika (povinný)
                     2. ročník inžinierskeho štúdia - LS, študijný odbor Inteligentné systémy (povinný)
Prerekvizity: základné znalosti o databázach

Prednášajúci:
prof. Ing. Ján Paralič, PhD., e-mail: Jan.Paralic at tuke.sk

Cvičiaci:
Ing. Peter Bednár, PhD., e-mail: Peter.Bednar at tuke.sk
                Ing. František Babič, PhD., e-mail: Frantisek.Babic at tuke.sk

                Ing. Ľudmila Pusztová, e-mail: Ludmila.Pusztova.2 at tuke.sk

    Anotácia: Základné pojmy z oblasti objavovania znalostí a dolovania v dátach. Proces objavovania znalostí vo veľkých databázach, popis jednotlivých krokov. Metódy dolovania v dátach, ich rozdelenie podľa rôznych kritérií. Objavovanie asociačných pravidiel, zovšeobecňovanie, klasifikácia, predikcia, zhlukovanie. Technológia dátových skladov. Prehľad vybraných metód pre objavovanie znalostí. Existujúce systémy s podporou objavovania znalostí alebo dolovania v dátach, príklady reálnych aplikácií. Dolovanie znalostí z kolekcií textových dokumentov, dolovanie znalostí z webu. 


Prednášky       Cvičenia       Spôsob hodnotenia       Ďalšie zdroje


Podklady k prednáškam

Téma

Podklady k prednáškam

1.  Proces objavovania znalostí (OZ) v databázach. Typické aplikačné oblasti OZ. Stručný popis jednotlivých krokov OZ. Základné typy dolovania v dátach (DM). Štandardizácia procesu OZ. Ukážka pôvodného softvéru vyvinutého na KKUI: KDD Package.

Proces_OZ.pdf

2. Pochopenie dát. Základné typy dát. Dáta bez závislostí (Multidimenzionálne dáta (kvantitatívne, kategorické, zmiešané, binárne); Textové dáta). Dáta so závislosťami (časové rady, diskrétne sekvencie, priestorové dáta, sieťové (grafové) dáta). Pochopenie dát (2. fáza CRISP-DM): Charakteristiky pre jednotlivé atribúty. Závislosť medzi jednotlivými atribútmi.

Pochopenie-dat.pdf

3. Príprava dát. I. Extrakcia príznakov a ich portabilita (transformácie jedného dátového typu na iný). II. Čistenie dát: Vysporiadanie sa s chýbajúcimi hodnotami. Ošetrenie chybných vstupov. Škálovanie a normalizácia. III. Redukcia dát: Vzorkovanie. Výber podskupiny príznakov. Redukcia dát rotáciou osí. Redukcia dát transformáciou typov.

Priprava-dat.pdf

4. Prediktívne dolovanie v dátach 1. Základné pojmy, dve fázy klasifikácie. Výber príznakov pre klasifikáciu. Rozhodovacie stromy, pravidlové klasifikátory. Pravdepodobnostná klasifikácia: Bayesovská klasifikácia a logistická regresia. Klasifikátory na princípe k-najbližších susedov.

Klasifikacia1.pdf

5. Prediktívne dolovanie v dátach 2. Kvantifikácia výsledku klasifikácie. Náročné klasifikačné scenáre: Klasifikácia do viacerých tried. Klasifikácia zriedkavých tried. Škálovateľná klasifikácia. Predikcia (numerický cieľový atribút). Lineárna a polynomiálna regresia. Regresné stromy. Prediktory na princípe k-najbližších susedov. Rozšírená klasifikácia: Semi-kontrolované učenie. Aktívne učenie. Zložená klasifikácia (učenie súborom metód).

Klasifikacia2.pdf

6. Štátny sviatok

 

7. Objavovanie znalostí v praxi – pozvaná prednáška z firmy Exponea, Ing. Jozef Kováč, spoluzakladateľ a CTO

 

8. Podobnosť a vzdialenosť. Multidimenzionálne dáta: kvantitatívne dáta, Lp normy a ich vlastnosti. Na porovnávaní založená podobnosť (match-based similarity). Kategorické dáta, zmiešané kvantitatívne a kategorické dáta. Podobnosť textových dát (text similarity measures). Podobnosť časových dát (temporal similarity measures). Mierky podobnosti pre diskrétne sekvencie. Mierky podobnosti grafov (graph similarity measures).

Podobnost_vzdialenost.pdf

9. Analýza zhlukov. Úvod, príklady aplikácií. Výber príznakov pre zhlukovanie: filtrovacie, obálkové a hybridné prístupy. Metódy zhlukovania založené na výbere reprezentantov zhlukov (k-stredové metódy): k-means, Mahalanobisov k-means, k-medians, k-medoids. Metódy hierarchického zhlukovania: aglomeratívne a divizívne metódy. Ďalšie metódy zhlukovania: na mriežke založené zhlukovanie (grid-based methods), na hustote založené zhlukovanie (density-based methods), na grafoch založené zhlukovanie (graph-based methods). Validácia zhlukov: interné a externé kritériá validity zhlukov.

Zhlukovanie.pdf

10. Detekcia anomálií. Úvod, príklady aplikácií. Analýza extrémnych hodnôt (extreme value analysis): Jednorozmerná (univariate) a viacrozmerná (multivariate) analýza extrémnych hodnôt. Metódy založené na hĺbke (depth-based methods). Zhlukovanie pre detekciu anomálií. Metódy založené na vzdialenosti (distance-based outlier methods). Metódy korigujúce lokálnu vzdialenosť: LOF (Local Outlier Factor) a Instance-specific Mahalanobis distance. Metódy založené na hustote (density-based methods). Validita anomálií: ROC (Receiver Operating Characteristics).

Detekcia-anomalii.pdf

11. Pozvaná prednáška z praxe (28.11.2018): Data science bez pretvárky. Odkiaľ sa dáta berú, prečo je dôležité rozmýšľať "inak" už pri ťahaní dát z úložiska, čo je to outlier alebo fraud a ako dostať maximum z dát, ktoré máte k dispozícii? V skratke ako pracovať s dátami z reálneho sveta doplnené o ukážky najzaujímavejších príkladov a case studies z praxe Vám prídu porozprávať experti na dátovú analytiku a direct marketing z firmy Pricewise - zakladajúci partner spoločnosti Pricewise, Milan Schnorrer a chief data scientist Lukáš Polesňák.

Firma Pricewise sa venuje tvorbe a správe vernostných programov, direct marketingu a pricingu (cenotvorbe), všetko podložené sofistikovanou analytikou zákazníckych dát. Experti Pricewise denne analyzujú dáta o státisícoch zákazníkov na Slovensku, ale aj v zahraničí.

Pricewise.pdf

 

Úlohy do súťaže o týždennú stáž vo firme Pricewise

12. Asociačné pravidlá. Základné pojmy: analýza nákupného košíka, položky, položkové množiny, frekventované položkové množiny. Asociačné pravidlá a ich zaujímavosť: podpora, spoľahlivosť (nesymetrická mierka), lift (symetrická mierka). Princíp monotónnosti podpory (downward closure property). Algoritmus Apriori na hľadanie frekventovaných množín položiek. Generovanie asociačných pravidiel z frekventovaných množín položiek. Algoritmy založené na enumeračnom strome, algoritmy využívajúce vertikálnu reprezentáciu. Ďalšie mierky zaujímavosti asociačných pravidiel: bitovo symetrické mierky spoľahlivosti. Ďalšie rozšírenia: dolovanie negatívnych vzorov. Vzorkovanie, hierarchické asociačné pravidlá, kvantitatívne asociačné pravidlá.

Asociacne-pravidla.pdf

13. Zhrnutie a opakovanie základného učiva

OZ-opakovanie.pdf

14. Predtermín

 

 


Cvičenia

Týždeň

Náplň cvičenia/Prednáška

Poznámky

1.

(24.09. – 28.09)

-   Oboznámenie sa s organizáciou cvičení, modelom práce na zadaniach a spôsobom ich hodnotenia.

-   Overenie existujúcich poznatkov pomocou písomnej previerky.

-   Prvá fáza CRISP-DM, načítanie dát

 

2.

(01.10. – 05.10.)

Pochopenie dát

 

3.

(08.10. – 12.10.)

Príprava dát

 

4.

(15.10. – 19.10.)

Projektová práca, konzultácie

1. písomná previerka vedomostí z prednášok (max. 5b)

– riadny termín

5.

(22.10. – 26.10.)

Modelovanie 1

 

6.

(29.10. – 02.11.)

Utorok 30.10 – štátny sviatok

Štvrtok 01.11 – štátny sviatok

Individuálne konzultácie

7.

(05.11. – 09.11.)

Modelovanie 2

 

8.

(12.11. – 16.11.)

Projektová práca, konzultácie

1. písomná previerka vedomostí z prednášok (max. 4b)

– opravný termín, platí výsledok opravy

9.

(19.11. – 23.11.)

Vyhodnotenie modelov

10.

(26.11. – 30.11)

Popisné dolovanie

 

11.

(03.12. – 07.12.)

Projektová práca, konzultácie

2. písomná previerka vedomostí z prednášok (max. 5b)

– riadny termín

12.

(10.12 – 14.12.)

Testovanie znalostí práce s nástrojom (max 5b)

Odovzdávanie zadaní na cvičení (max. 25b)

13.

(17.12. – 21.12.)

Projektová práca, konzultácie

2. písomná previerka vedomostí z prednášok (max. 4b)

– opravný termín, platí výsledok opravy

 


Spôsob hodnotenia

        ---------------------------------------------
          Spolu za cvičenia - k zápočtu: max. 40 bodov

        ---------------------------------------------
          Spolu: max. 100 bodov


Ďalšie zdroje:

  1. J. Paralič: Objavovanie znalostí v databázach. Elfa, Košice 2003, ISBN 80-89066-60-7, 80 s.
  2. Charu C. Aggarwal: Data Mining: The Textbook. Springer, 2015
  3. G. James, D. Witten, T. Hastie and R. Tibshirani: An Introduction to Statistical Learning with Applications in R. Springer, 2015.
  4. Metodológia CRISP-DM: schéma a podrobný popis alebo kratší tutoriál
  5. KDnuggets. Napr. aj Analytics Industry Overview - Gregory Piatetsky - pozvaná prednáška na SuperData Summit 2011 v San Diegu
  6. Systém KDD Package pre podporu celého procesu objavovania znalostí v databázych, vivinutý na Katedre kybernetiky a umelej inteligencei, FEI, TU v Košiciach v rámci medzinárodného výskumného projektu GOAL: On-line analýza geografických informácií je voľne stiahnuteľný a k dispozícii na výuku, alebo experimentovanie.
  7. J. Paralič, K. Furdík, G. Tutoky, P. Bednár, M. Sarnovský, P. Butka, F. Babič: Dolovanie znalostí z textov. Equilibria, s.r.o., Košice, 2010, 184 s.
  8. Elektronické databázy zahraničné (autorizovaný prístup do databáz sprostredkovaný univerzitnou knižnicou TU. Prístup do väčšiny externých elektronických databáz (bibliografické databázy, úplné texty článkov z časopisov a zborníkov, online knihy, ...) je viazaný na IP adresu proxy servera tuke.sk (iba v rámci TU) a je potrebné správne nastavenie prehliadača.
  9. Štatistické tabuľky