Rozsah: týždenne 2h prednášok, 1h výpočtové
cvičenie a 1h projektová práca. Predmet končí zápočtom a skúškou.
Určený pre: 2. ročník inžinierskeho štúdia – zimný semester, študijný
program Hospodárska informatika (povinný), 1. ročník inžinierskeho štúdia,
študijný program Inteligentné systémy (povinne voliteľný)
Prerekvizity: žiadne
Prednášajúci: prof. Ing. Ján Paralič, PhD.,
e-mail: Jan.Paralic at tuke.sk
doc. Ing. Peter Bednár, PhD., e-mail: Peter.Bednar
at tuke.sk
Cvičiaci: doc. Ing. Peter Bednár, PhD., e-mail:
Peter.Bednar at tuke.sk
Anotácia:
I. Vyhľadávanie informácií z množiny textových dokumentov. Klasické a alternatívne modely pre
vyhľadávanie informácií, boolovský model, vektorový
model, pravdepodobnostný model. Predspracovanie textových dokumentov.
Vyhodnocovanie systémov pre vyhľadávanie informácií. Vyhľadávanie na webe.
Architektúra crawler-indexer. Ekonomické aspekty
vyhľadávania, marketing založený na vyhľadávaní, spôsob fungovania AdWords. Vyhľadávanie s využitím štruktúry liniek.
Algoritmy PageRank a HITS.
II. Dolovanie znalostí z textov. Základné kroky, príklady aplikačných oblastí. Metódy analýzy prirodzeného
jazyka. Predspracovanie textov do vhodnej reprezentácie, jazykové úrovne a
metódy predspracovania textov. Syntaktická reprezentácia textov, morfologické
značkovanie, syntaktické parsovanie, závislostné stromy. Zjednoznačnenie
významu, WordNet, redukcia príznakového priestoru,
selekcia termov, Latentné Sémantické Indexovanie
(LSI). Extrahovanie, analýza, interpretovanie a vizualizácia tém. Analýza
sentimentu. Klasifikácia emócií, SenticNet model.
Extrahovanie informácií (entít, udalostí, vzťahov a faktov). Pravidlá a
slovníky, štatistické metódy, skryté Markovove
modely, rekurentné neurónové siete, hĺbkové učenie.
Rozlíšenie koreferencií, ontológie, extrahovanie
relácií.
III. Manažment znalostí: Faktory ovplyvňujúce manažment znalostí (MZ). Konceptuálny pohľad na
manažment znalostí. Jednotlivé úrovne práce so znalosťami. Životný cyklus
znalostí (socializácia, externalizácia, kombinácia, internalizácia). Ďalšie uhly pohľadu na manažment znalostí.
Základná architektúra systému pre podporu manažmentu znalostí (SMZ) v
organizácii a príklady konkrétnych systémov SMZ. Univerzalistický vs. podmienený pohľad na MZ. Identifikácia vhodného typu
riešenia manažmentom znalostí. Vplyv manažmentu znalostí (MZ) na organizáciu a
hodnotenie MZ.
Prednášky a cvičenia
Spôsob hodnotenia
Literatúra
Téma |
1.
Vyhľadávanie informácií z
množiny textových dokumentov. Proces vyhľadávania
informácií (information retrieval – IR). Taxonómia modelov pre IR. Formálna definícia IR modelu. Klasické modely pre IR. |
2. Vektorový model pre
vyhľadávanie informácií z
množiny textových dokumentov - rôzne spôsoby
váhovania a výpočet miery relevancie dokumentu voči dopytu - ranking. Pravdepodobnostný model pre
vyhľadávanie informácií z
množiny textových dokumentov. |
3.
Vyhodnocovanie systémov
pre vyhľadávanie informácií. Rôzne
kritériá pre hodnotenie
IR systémov. Hodnotenie efektívnosti vyhľadávania (spokojnosť používateľa). Presnosť, návratnosť, F miera – t.j. hodnotenie výsledkov bez usporiadania (unranked retrieval set). Grafické znázornenie závislosti presnosti a návratnosti – t.j. hodnotenie usporiadaných výsledkov vyhľadávania (ranked
retrieval set). Sumarizačné mierky
efektívnosti vyhľadávania.
|
4.
Vyhľadávanie
na webe. Veľmi stručná história vyhľadávania na webe. Architektúra
crawler-indexer, základné požiadavky
na crawler, jeho základná architektúra. Typy používateľských dopytov, kategórie. Ekonomické aspekty vyhľadávania, marketing založený
na vyhľadávaní, spôsob fungovania AdWords. Vyhľadávanie s využitím štruktúry liniek. Algoritmy PageRank a HITS. |
5.
Dolovanie znalostí z textov - 1. časť. Základné kroky procesu objavovania znalostí v textoch. Príklady aplikačných oblastí. Automatické spracovanie prirodzeného jazyka. Problémy pri spracovaní prirodzeného jazyka. Metódy analýzy prirodzeného jazyka. |
6.
Dolovanie znalostí z textov - 2. časť. Identifikácia relevantných
textových dát. Formáty textových dát, kódovanie textu, harmonizácia dát, integrácia dát. Predspracovanie textov do vhodnej reprezentácie, jazykové úrovne a metódy predspracovania textov. Tokenizácia, extrahovanie termov, stemming, lematizácia, odstránenie stopslov, extrahovanie postupností slov a n-gramov. Syntaktická reprezentácia textov, morfologické značkovanie, syntaktické parsovanie, závislostné stromy. |
7.
Dolovanie znalostí z textov - 3. časť. Integrovanie a predspracovanie
textov do vhodnej reprezentácie. Zjednoznačnenie významu, WordNet, redukcia príznakového priestoru, selekcia termov, Latentné Sémantické Indexovanie (LSI). Použitie metód pre extrahovanie znalostí na predspracovaných
dátach - modelovanie. Klasifikácia, lineárne modely, logistická regresia, SVM, semikontrolované
učenie, aktívne učenie. Zhlukovanie, k-means,
SOM, extrahovanie popisu zhlukov, vizualizácia zhlukov. |
8. Dolovanie znalostí z
textov - 4. časť. Extrahovanie
tém, LSI (latentné sémantické indexovanie), pravdepodobnostný model tém,
LDA (latentná dirichletova
alokácia), analýza tém v dátových prúdoch. Interpretovanie tém, vizualizácia tém. Analýza sentimentu, metódy analýzy sentimentu. Využitie semikontrolovaného a aktívneho učenia.
Klasifikácia emócií, SenticNet model. |
9.
Dolovanie znalostí z textov - 5. časť. Extrahovanie informácií: extrahovanie entít, udalostí, vzťahov a faktov. Pravidlá a slovníky, štatistické metódy, skryté Markovove modely, rekurentné neurónové siete, hĺbkové učenie. Rozlíšenie koreferencií, ontológie, extrahovanie relácií. Niekoľko príkladov extrahovania informácií. |
10. Dolovanie znalostí
z textov - 6. časť. Veľké jazykové modely: základné princípy a spôsoby ich využitia, architektúry, učenie modelov, meranie kvality výsledkov, prompt
engineering. |
11.
Manažment znalostí v praxi. Pozvaná prednáška |
12.
Jednotlivé uhly pohľadu na manažment
znalostí. Systémy pre podporu manažmentu znalostí (SMZ) v organizácii a príklady konkrétnych SMZ, vrátane systémov vyvinutých v rámci európskych projektov na našej katedre:
KnowWeb
a Webocrat.
|
13. Faktory
ovplyvňujúce manažment znalostí (MZ). Univerzalistický,
alebo podmienený pohľad na MZ. Vplyv charakteristík riešených úloh. Vplyv charakteristík používaných znalostí. Vplyv charakteristík organizácie. Vplyv charakteristiky vonkajšieho prostredia. Metodológia pre
výber vhodného typu riešenia manažmentom znalostí. |
·
2. písomka: max. 10 bodov
-------------------------------------------
Spolu za cvičenia: max. 40 bodov
·
Úlohy z prednášok a záverečný test
na skúške: spolu max 60 bodov
---------------------------------------------------------------------------------
Spolu: max. 100 bodov