Suchmaschinen
versuchen doppelte Webseiten zu erkennen und aus dem Index
herauszunehmen, da diese keinerlei Mehrwert für Benutzer
bedeuten. Dazu wird die Checksumme erfasster Dokumente
verglichen. Da sich diese aber bereits dadurch ändern kann,
dass in einem Dokument nur ein einziges Zeichen verändert
wird (was bei anderer Menüführung oder schlichter
Hinzufügung eines Leerzeichens der Fall ist), erfolgt der
Vergleich für einzelne Teile einer Webseite, so z.B. nur für
einzelne Textpassagen oder für Meta-Informationen.
Dubletten können
leicht auch unbeabsichtigt entstehen, wenn ein Dokument
unter zwei unterschiedlichen URL aufzufinden ist. Bei den
meisten Servern wird die Datei index.html automatisch als
Startseite angezeigt. Weisen Links z.B. sowohl auf
http://www.domain.de als auch
auf
http://www.domain.de/index.html, entsteht eine Dublette.
Diese wird von Suchmaschinen nicht als Spam betrachtet,
sondern einfach nur ein Eintrag aus dem Index komplett
entfernt.