Mit Crawler wird ein Computerprogramm bezeichnet, das automatisch das Web durchsucht. Ein solches Programm arbeitet wie ein Roboter, macht kontinuierlich die gleiche Arbeit. Wenn ein Nutzer eine Suchanfrage startet, wird nicht das ganze Web durchsucht, sondern die eigene Datenbank der Suchmaschine. Zum Befüllen dieser Datenbank werden Crawler eingesetzt, die automatisch im Internet Seite für Seite und Dokument für Dokument durchforsten und die gesammelten Informationen in der Datenbank ablegen. Der Name Crawler leitet sich aus dem Namen der ersten Suchmaschine ab, die als Webcrawler bezeichnet wurde. Alternativ nennt man einen Crawler auch Spider, Bot oder Robot.
Wie funktioniert’s?
Die Arbeit des Crawlers ist mit der eines Bibliothekars vergleichbar: Er durchsucht das Internet, ordnet die Informationen in Kategorien ein und katalogisiert die Inhalte bzw. bereitet sie so auf, dass die Suchmaschine damit arbeiten kann. Dabei handelt der Crawler nur bedingt eigenständig. Zwar führt er seine Aufgaben automatisiert aus, allerdings müssen die Aufgaben zuvor definiert werden. Auf die indexierten Informationen wird in der Regel über eine Ausgabesoftware zugegriffen.
Der Einsatz von Crawlern
Klassischerweise leisten Crawler die Basisarbeit einer funktionierenden Suchmaschine, indem sie das Internet durchkämmen und Webseiten und Dokumente indexieren. Focused Crawler werden eingesetzt, um Seiten im Hinblick auf eine thematische Relevanz zu durchsuchen. Ein Focused Crawler kann zum Beispiel speziell nach aktuellen Nachrichten zu einem bestimmten Thema suchen. Darüber hinaus werden Crawler zum Beispiel von Preisvergleichsportalen eingesetzt, um das Internet nach entsprechenden Angeboten zu durchsuchen. Für das Data Mining nutzt man Crawler, um öffentliche Adressen und Kontaktdaten zu sammeln. Crawler sind auch Teil einiger Webanalyse-Tools, die Webseiten in regelmäßigen Abständen analysieren, um Daten über Seitenaufrufe oder Links zu sammeln.
Der Scraper
Neben dem Crawler gibt es auch noch den sogenannten Scraper. Dieser sucht allerdings nicht nur nach Daten, sondern dient dazu, Content von Internetseiten zu sammeln, um diesen in veränderter Form auf der eigenen Seite zu veröffentlichen. Diese Methode gehört allerdings zu den Black Hat Techniken und ist ungern gesehen. Der Scraper ist folglich weniger an Metadaten interessiert, als vielmehr an den konkreten sichtbaren Inhalten.
Dem Crawler den Zutritt verwehren
Nicht jede Website soll von einem Crawler erfasst werden. Möchte der Webmaster eine Seite vom Crawler ausschließen, kann er das über die User Agents in der robots.txt tun. Um die Indexierung durch Suchmaschinen zu unterbinden, ist allerdings ein noindex-Tag oder ein Canonical Tag nötig.