ChristianHerta

Suchtechnologie und Information Retrieval

für Studenten der Informatik

von Christian Herta

Suchwerkzeuge spielen heutzutage die wichtigste Rolle beim Finden relevanter Information in großen Dokumentenbeständen. So ist es ohne Suchportale wie "google", "Yahoo", "MSN", "Ask" oder "weFind" unmöglich bedeutsame Internetseiten zu einem Informationsbedürfnis aus der Fülle der Internetdokumente zu erhalten. Die Grundlage für Suchtechnologien liefert die Wissenschaft Information Retrieval. Diese ist älter als das Internet, hat aber in den letzten Jahren aufgrund des Webs und des stetigen Wachstums an Informationen enorm an Dynamik und Bedeutung gewonnen.
In der Vorlesung wird die Theorie und Praxis der (Web-)Suche vermittelt. In den Übungen wird das Wissen mittels Übungsaufgaben und Programmierbeispielen vertieft. Dabei wird als Programmiersprache Java und entsprechende Open-Source Software (Lucene, Heritrix, Hadoop, UIMA, openNLP etc.) verwendet.

Inhalt der Vorlesung

Einfühung
- Motivation und Übersicht
- Begriffe und Definitionen
Grundlagen des Text Retrieval
- Boolean-Retrieval, Term-Vokabular, Posting Listen, Tries
- Index-Konstruktion
- Textanalyse für die Suche
- Scoring und Relevanz-Ranking (Vector-Space Modell),
- index compression
Text Retrieval mit Lucene
- Einführung in Lucene
- Indizierung mit Lucene: Prozess der Indizierung, Dokumente und Felder, Index-Struktur, ACID-Transaktionen
- Suche mit Lucene: Query-Objekte, Query-Parser, feldübergreifendes Vektorspace-Modell und Ranking
- (Text-)Analyse mit Lucene
- Ausgewählte fortgeschrittene Themen
Web-Spidering
Vertikale Suche und Enterprise Search
- UIMA zur Dokumentenverarbeitung und Metadatenerzeugung
- UIMA-based Annotation Type System for a Text Mining Architecture (Folien von U. Hahn et. all.)
- System-Architektur
- Beispiele für vertikale Websuchen: Nachrichtensuche, Blogsuche, Arztsuche etc.
Verteiltes Information Retrieval
- Hadoop und MapReduce (Gastvortrag Isabel Drost)
Sprachtechnologie, Computerlinguistische Grundlagen
Text-, Web- und Data-Mining
- Grundlagen und Einführung in Data-Mining und Machine Learning
- Page-Rank, HITS-Algorithmus, Nutzen der Hyperlinkstruktur zum Ranking
- Klassifikation: Naive Bayes, Overfitting, Large Margin Classifier, Support Vector Machines, Anwendungen: Dokumentenklassifikation, Autotagging
- Clustering, hierarchisch, Expectation Maximization
- Graphical Models als theoretisches Framework:
  - Directed-, Undirected- und Factor-Graphs
- Naive Bayes
- Sequenzlernen: von Hidden Markov zu Linear Chain Conditional Random Fields; Anwendung: Named Entity Recognition
- probabilistic Latent Semantic Indexing, Latent Dirichlet Allocation
Federated-, Universal- and Blended-Search
Nutzerführung
- Faceted Search, Search Result Clustering, Relevance Feedback
Multimedia Suche
Evaluation und Bewertung von IR-Systemen
Social Retrieval: Communities und Suche
Empfehlungssysteme
Mobile Informationssysteme
Semantische Suche und Ontologien - Vortrag im Rahmen des Workshops Corporate Semantic Web an der FU-Berlin; März 2009
- Description Logic als Grundlage von Ontologien
- Datenmodelle: RDF, OWL
- SWRL
- Sparql
- Reasoning
Trends und Zukunft der Suche
- Personalisierung - Search 4.0
- Web for Machines: Web of Data, Web of Services, Web of Identities
Softwaretechnische Aspekte, Betrieb etc.
Markt der Suche, Anwendungen

Literatur

siehe Literatur Information Retrieval, Text und Web-Mining