Suchtechnologie und Information Retrieval

für Studenten der Informatik

von Christian Herta

Suchwerkzeuge spielen heutzutage die wichtigste Rolle beim Finden relevanter Information in großen Dokumentenbeständen. So ist es ohne Suchportale wie "google", "Yahoo", "MSN", "Ask" oder "weFind" unmöglich bedeutsame Internetseiten zu einem Informationsbedürfnis aus der Fülle der Internetdokumente zu erhalten. Die Grundlage für Suchtechnologien liefert die Wissenschaft Information Retrieval. Diese ist älter als das Internet, hat aber in den letzten Jahren aufgrund des Webs und des stetigen Wachstums an Informationen enorm an Dynamik und Bedeutung gewonnen.
In der Vorlesung wird die Theorie und Praxis der (Web-)Suche vermittelt. In den Übungen wird das Wissen mittels Übungsaufgaben und Programmierbeispielen vertieft. Dabei wird als Programmiersprache Java und entsprechende Open-Source Software (Lucene, Heritrix, Hadoop, UIMA, openNLP etc.) verwendet.

Inhalt der Vorlesung

  1. Einfühung
    • Motivation und Übersicht
    • Begriffe und Definitionen
  2. Grundlagen des Text Retrieval
  3. Text Retrieval mit Lucene
  4. Web-Spidering
  5. Vertikale Suche und Enterprise Search
  6. Verteiltes Information Retrieval
  7. Sprachtechnologie, Computerlinguistische Grundlagen
  8. Text-, Web- und Data-Mining
    • Grundlagen und Einführung in Data-Mining und Machine Learning
    • Page-Rank, HITS-Algorithmus, Nutzen der Hyperlinkstruktur zum Ranking
    • Klassifikation: Naive Bayes, Overfitting, Large Margin Classifier, Support Vector Machines, Anwendungen: Dokumentenklassifikation, Autotagging
    • Clustering, hierarchisch, Expectation Maximization
    • Graphical Models als theoretisches Framework:
      • Directed-, Undirected- und Factor-Graphs
    • Naive Bayes
    • Sequenzlernen: von Hidden Markov zu Linear Chain Conditional Random Fields; Anwendung: Named Entity Recognition
    • probabilistic Latent Semantic Indexing, Latent Dirichlet Allocation
  9. Federated-, Universal- and Blended-Search
  10. Nutzerführung
    • Faceted Search, Search Result Clustering, Relevance Feedback
  11. Multimedia Suche
  12. Evaluation und Bewertung von IR-Systemen
  13. Social Retrieval: Communities und Suche
  14. Empfehlungssysteme
  15. Mobile Informationssysteme
  16. Semantische Suche und Ontologien - Vortrag im Rahmen des Workshops Corporate Semantic Web an der FU-Berlin; März 2009
    • Description Logic als Grundlage von Ontologien
    • Datenmodelle: RDF, OWL
    • SWRL
    • Sparql
    • Reasoning
  17. Trends und Zukunft der Suche
    • Personalisierung - Search 4.0
    • Web for Machines: Web of Data, Web of Services, Web of Identities
  18. Softwaretechnische Aspekte, Betrieb etc.
  19. Markt der Suche, Anwendungen

Literatur

siehe Literatur Information Retrieval, Text und Web-Mining

Übungen