Suchtechnologie und Information Retrieval
für Studenten der Informatik
von Christian Herta
Suchwerkzeuge spielen heutzutage die wichtigste Rolle beim
Finden relevanter Information in großen Dokumentenbeständen.
So ist es ohne Suchportale wie "google", "Yahoo", "MSN", "Ask" oder "weFind"
unmöglich bedeutsame Internetseiten zu einem Informationsbedürfnis aus der
Fülle
der Internetdokumente zu erhalten. Die Grundlage für Suchtechnologien
liefert die Wissenschaft Information Retrieval. Diese ist älter als
das Internet, hat aber in den letzten Jahren aufgrund des Webs und des
stetigen Wachstums an Informationen enorm an Dynamik und Bedeutung gewonnen.
In der Vorlesung wird die Theorie und Praxis der (Web-)Suche vermittelt.
In den Übungen wird das Wissen mittels Übungsaufgaben und Programmierbeispielen
vertieft. Dabei wird als Programmiersprache Java und entsprechende
Open-Source Software (Lucene, Heritrix, Hadoop, UIMA, openNLP etc.) verwendet.
Inhalt der Vorlesung
- Einfühung
- Motivation und Übersicht
- Begriffe und Definitionen
- Grundlagen des Text Retrieval
- Text Retrieval mit Lucene
-
Web-Spidering
- Vertikale Suche und Enterprise Search
-
Verteiltes Information Retrieval
-
Sprachtechnologie, Computerlinguistische Grundlagen
-
Text-, Web- und Data-Mining
- Grundlagen und Einführung in Data-Mining und Machine Learning
- Page-Rank, HITS-Algorithmus, Nutzen der Hyperlinkstruktur zum Ranking
- Klassifikation: Naive Bayes, Overfitting, Large Margin Classifier,
Support Vector Machines, Anwendungen: Dokumentenklassifikation, Autotagging
- Clustering, hierarchisch, Expectation Maximization
- Graphical Models als theoretisches Framework:
- Directed-, Undirected- und Factor-Graphs
- Naive Bayes
- Sequenzlernen: von Hidden Markov zu Linear Chain Conditional
Random Fields; Anwendung: Named Entity Recognition
- probabilistic Latent Semantic Indexing, Latent Dirichlet Allocation
-
Federated-, Universal- and Blended-Search
-
Nutzerführung
- Faceted Search, Search Result Clustering, Relevance Feedback
-
Multimedia Suche
-
Evaluation und Bewertung von IR-Systemen
-
Social Retrieval: Communities und Suche
-
Empfehlungssysteme
-
Mobile Informationssysteme
- Semantische Suche und Ontologien -
Vortrag im Rahmen des Workshops Corporate Semantic Web an der FU-Berlin; März 2009
- Description Logic als Grundlage von Ontologien
- Datenmodelle: RDF, OWL
- SWRL
- Sparql
- Reasoning
-
Trends und Zukunft der Suche
-
Personalisierung - Search 4.0
-
Web for Machines: Web of Data, Web of Services, Web of Identities
- Softwaretechnische Aspekte, Betrieb etc.
- Markt der Suche, Anwendungen
Literatur
siehe
Literatur Information Retrieval, Text und Web-Mining
Übungen