Das Deep
Web (auch Hidden Web
oder Invisible Web)
bezeichnet den Teil des Internet, der bei einer Internetrecherche nicht über
normale Suchmaschinen auffindbar ist. Im Gegensatz zum Deep Web werden die
über Suchmaschinen zugänglichen Webseiten
Visible Web (Sichtbares Web)
oder Surface Web
(Oberflächenweb) genannt. Das Deep Web besteht zu großen Teilen aus
themenspezifischen Datenbanken (Fachdatenbanken) und Webseiten, die erst
durch Anfragen dynamisch aus Datenbanken generiert werden. Grob kann das
Deep Web unterschieden werden in "Inhalte, die nicht frei zugänglich sind"
und "Inhalte, die nicht von Suchmaschinen indexiert werden". Die Größe des
Deep Web kann nur geschätzt werden - es wird davon ausgegangen, dass es ein
Vielfaches des direkt zugänglichen Webs umfasst. Suchmaschinen werden
ständig weiterentwickelt, daher können Webseiten die gestern noch zum Deep
Web gehörten heute schon Teil des Oberflächenwebs sein.
Eigenschaften
Nach einer Studie (Bergmann 2001) der Firma
BrightPlant (http://www.brightplanet.com)
ergeben sich für das Deep Web folgende Eigenschaften:
-
Die Datenmenge des Deep Web ist ca
400-550 mal größer als die des Surface Web
-
Das Deep Web beinhaltet 7500 Terabyte
Informationen, das Surface Web 19 Terabyte (Anm. 1 Terabyte = 1024
Gigabyte)
-
Das Deep Web beinhaltet nahezu 550
Milliarden Persönliche Dokumente, das Surface Web eine Milliarde
-
Es existieren mehr als 200.000 Deep
Websites
-
60 der grössten Deep Web Seiten enthalten
etwa 750 Terabyte an Informationen, was die Menge des Surface Web um den
Faktor 40 übersteigt
-
Durchschnittlich haben Webseiten aus dem
Deep Web monatlich 50% mehr Zugriffe, und sind öfter verlinkt als
Webseiten aus dem Surface Web. Trotzdem ist der im Internet suchenden
Öffentlichkeit die normale Deep Webseite kaum bekannt
-
Das Deep Web ist die am schnellsten
wachsende Kategorie von neuen Informationen im Web
-
Deep Webseiten sind begrenzter und
inhaltlich tiefer als Surface Webseiten
-
Inhalte des Deep Web sind qualitativ 1000
bis 2000 mal höherwertig als Inhalte des Surface Web
-
Inhalte des Deep Web sind bedeutetend für
jede Informationsabfrage und jedes Wissensgebiet
-
Mehr als die Hälfte des Deep Web ist in
themenspezifischen Datenbanken angesiedelt
-
Mehr als 95% des Deep Web sind frei
zugänglich ohne dass Gebühren gezahlt werden müssten
Da Bright Planet mit DQM2 eine kommerzielle
Suchhilfe anbietet, ist die stark überschätzte Größenangabe mit großer
Vorsicht zu genießen. Die geschätze Datenmenge des Deep Web muss um einige
Daten (http://www.brightplanet.com/technology/deepweb/Table2.asp)
bereinigt werden:
-
Dubletten aus Bibliothekskatalogen die
sich überschneiden
-
Datensammlung des National Climatic Data
Center (370.000 GByte)
-
Daten der NASA (220.000 GByte)
-
weitere
Datensammlungen (National Oceanographic Data Center & National
Geophysical Data Center, Right to know Network, Alexa, ...)
Anhand der Anzahl der Datensätze zeigt
sich, dass die Studie die Größe des Deep Web um das zehnfache überschätzt.
Allein der Informationsanbieter Lexis Nexis zieht nach Anzahl der Datensätze
mit dem Suchmaschinenprimus Google gleich. Das Deep Web ist daher sicher
weitaus größer als das Oberflächenweb.
In einer Untersuchung (http://www.sims.berkeley.edu/research/projects/how-much-info-2003/internet.htm)
der University of California, Berkeley aus dem Jahr 2003 wurden folgende
Werte als Umfang des Internets ermittelt: Surface Web - 167 Terabyte, Deep
Web - 91850 Terabyte. Die gedruckten Bestände der Library of Congress in
Washington, der größten Bibliothek der Welt, umfassen 10 Terabyte.
Arten des Deep Web
Nach Sherman & Price (2001) werden 4 Typen
des Invisible Web unterschieden: Opaque Web, Private Web, Proprietary Web,
Invisible Web und Truly invisible Web.
Opaque Web, Webseiten die indiziert werden
könnten, zur Zeit aber aus Gründen der Performance oder
Aufwand-Nutzen-Relation nicht indiziert werden (Suchtiefe, Besuchsfrequenz)
Suchmaschinen berücksichtigen nicht alle Verzeichnisebenen und Unterseiten
(max. 100 KB) einer Webseite. Beim Erfassen von Webseiten steuern Webcrawler
über Links zu den folgenden Webseiten. Webcrawler selbst können nicht
navigieren, sich sogar in tiefen Verzeichnisstrukturen verlaufen, Seiten
nicht erfassen und nicht zurück zur Startseite finden. Aus diesem Grund
berücksichtigen Suchmaschinen oft höchstens fünf oder sechs
Verzeichnisebenen. Umfangreiche und somit relevante Dokumente können in
tieferen Hierarchieebenen liegen und wegen der beschränkten
Erschließungstiefe von Suchmaschinen nicht gefunden werden.
Dateiformate, die nur teilweise erfasst werden können (z.B. PDF, Google
indiziert immer nur die ersten 120 KB - etwa 100.000 Textzeichen - einer
PDF-Datei)
Häufigkeit der Indizierung einer Webseite (täglich, monatlich)
Ständig aktualisierte Datenbestände, Messdaten, Echtzeit-Daten
Webseiten ohne Hyperlinks oder Navigationsystem, unverlinkte Webseiten,
Einsiedler-URLs oder Orphan-Seiten (engl. Waise)
Private Web, Webseiten die indiziert werden
könnten, aber auf Grund von Zugangsbeschränkungen des Webmasters nicht
indiziert werden: Webseiten im Intranet (interne Webseiten),
passwortgeschützte Daten (Registrierung und evtl. Kennwort und Login),
Zugang nur für bestimmte IP-Adressen, Schutz vor einer Indizierung durch den
Robots Exclusion Standard, Schutz vor einer Indizierung durch die
Meta-Tag-Werte noindex,
nofollow und
noimageindex im Quelltext der
Webseite
Proprietary Web, Webseiten die indiziert
werden könnten, die jedoch nur nach Anerkennung einer Nutzungsbedingung
zugänglich sind (kostenlos oder kostenpflichtig)
Invisible Web, Webseiten die indiziert
werden könnten, die jedoch aus kaufmänischen oder strategischen Gründen
nicht indiziert werden
Truly Invisible Web, Webseiten die nicht
indiziert werden können: Datenbankformate die vor dem WWW entstanden sind
(Einige Hosts), Dateiformate, die nicht erfasst werden können (zum Beispiel
Flash und Grafikformate), komprimierte Daten, Webseiten, die nur über eine
Benutzernavigation die Grafiken (Image Maps) oder Scripte (Frames) benutzt,
Dokumente, die nicht direkt im Browser angezeigt werden können,
Nicht-Standardformate, Peer-to-Peer-Tauschbörsen, Multimedia-Dateien,
FTP-Server, Chatroom, IRC, von Suchmaschinen absichtlich vernachlässigte
Daten
Dieser Artikel basiert auf dem Artikel
Deep Web aus
der freien Enzyklopädie
Wikipedia und steht
unter der
GNU-Lizenz für freie Dokumentation.
In der Wikipedia ist eine
Liste der Autoren
verfügbar.