Glossar

Crawler

Die Crawler stellen die eigentliche Schnittstelle einer Suchmaschine zur Außenwelt dar, wobei Crawler auch als Robots oder Spider bezeichnet werden. Im Auftrag von Schedulern sind die Crawler ständig im Internet unterwegs. Dabei untersuchen sie zum Beispiel Dokumente, ob diese verändert oder entfernt worden, oder sie überprüfen neue Webseiten und sammeln deren Daten.

Sollte ein Crawler auf eine neue Webseite stoßen, so sendet er mittels eines DNS-Caches einen HTTP-Request an die IP-Adresse des Servers. Damit fordert der Crawler den Server auf, ihm mit der GET-Methode die benötigten Informationen zu übertragen. Wen es interessiert, wie häufig die Crawler die eigene Webseite besuchen, kann dies in seinem Logfile nachvollziehen, denn jeder Besuch hinterlässt dort seine Spuren. Durch die Art der Arbeitsweise eines Crawlers können Rückschlüsse auf die Qualität einer Suchmaschine gezogen werden.