Die deutsche Entsprechung für den Begriff Information Retrieval ist „Informationsrückgewinnung“. Gemeint ist damit der Vorgang, aus einer großen Menge von unsortierten Daten spezielle Informationen bereitstellen zu können. Suchmaschinen wie Google nutzen zum Beispiel das Prinzip der Informationsrückgewinnung, das Bestandteil der Informatik, Informationswissenschaft und Computerlinguistik ist.
Wie funktioniert’s?
Grundvoraussetzung für einen Information Retrieval ist eine große Datenmenge, aus der man Informationen beziehen kann. Diese Datenmenge wird durchsucht, die Informationen darin werden bewertet und gewichtet. Daraus sollen dann keine neuen Informationen gewonnen werden (wie zum Beispiel beim Data Mining), sondern die vorhandenen, enthaltenen Informationen sollen zugänglich und auffindbar sein.
Unterschiedliche Modelle der Informationsrückgewinnung
Im Laufe der Geschichte des Information Retrieval haben sich wurden ganz unterschiedliche Modelle der Informationsrückgewinnung entwickelt. Das Boolesche Modell basiert auf der Booleschen Logik, die bereits 1854 von George Boole veröffentlicht wurde. Es gibt nur die drei Operatoren „und“, „oder“ und „nicht“, anhand derer Inhalte gefunden werden können. Diese werden aber nicht nach Relevanz sortiert, das Ergebnis ist somit kein Ranking. Bei der Textstatistik geht es um die Terme innerhalb der Dokumente. WDF und IDF (Within-document frequenzy und Inverse document frequency) spielen dabei als Gewichtungsfaktoren eine Rolle. WDF und IDF sind mittlerweile auch Faktoren, die in die Suchmaschinenoptimierung miteinbezogen werden und die Keyworddichte als Rankingfaktor ablösen. Zur Textstatistik gehört auch das Vektorraummodell, wobei n-Wörter einen n-dimensionalen Raum aufspannen. Die Wörter bilden darin einen Vektor und anhand der Winkel von Vektoren kann die Ähnlichkeit von Wörtern bestimmt werden. Darüber hinaus existieren Linktopologische Modelle, die im Web Anwendung finden, weil Dokumente hier durch Links miteinander verknüpft sind. Der PageRank ist zum Beispiel ein linktopologisches Modell des Information Retrievals.
Die Relevanz von Information Retrieval für die Suchmaschinenoptimierung
Klassisches Anwendungsgebiet des Information Retrievals ist die Suchmaschine, dessen Funktionalität auf dem Prinzip der Informationsrückgewinnung beruht. Google nutzt dabei den von Larry Page entwickelten PageRank, der ebenfalls ein Modell der Informationsrückgewinnung darstellt. Für die Suchmaschinenoptimierer ist das Prinzip daher von großer Bedeutung, auch wenn der Begriff Information Retrieval im Alltag der Suchmaschinenoptimierung nicht fällt. Dabei ist letztlich jede SEO-Maßnahme eine Maßnahme für eine bessere Informationsrückgewinnung. Ein direkter Zusammenhang besteht auch via WDF*IDF, was vermehrt als wichtiger Rankingfaktor angesehen wird, wohingegen die bloße Keyworddichte zunehmende Vernachlässigung erfährt.