Suchmaschinen-Lexikon - Was ist der Robots Exclusion Standard?
Nach der Übereinkunft des Robots Exclusion Standard-Protokolls
liest ein Webcrawler oder Bot beim Auffinden einer Webseite zuerst die Datei
robots.txt im
Wurzelverzeichnis (Root) einer Domain. In dieser Datei kann festlegt werden,
ob und wie die Webseite von einem Webcrawler besucht werden darf.
Serverbetreiber haben so die Möglichkeit ausgesuchte Bereiche ihres Servers
für (bestimmte) Suchmaschinen zu sperren. Das Protokoll ist rein hinweisend
und ist auf die Mitarbeit des Webcrawler angewiesen. Ein Ausgrenzen
bestimmter Teile einer Webseite durch das Protokoll garantiert keine
Geheimhaltung.
Webcrawler können auch durch HTML Meta-Tags
am Indexieren einer Webseite gehindert werden. Auch Meta-Tags sind rein
hinweisend, benötigen die Mitarbeit
freundlicher Webcrawler und garantieren keine Geheimhaltung. Die
Meta-Tags im Seitenquelltext dieser Seite hier lauten: