Links & Law - Internetrecht und Suchmaschinenoptimierung für Juristen & Webmaster

Internetrecht für Juristen und Webmaster Suchmaschinen & Such-maschinenoptimierung Blog zu Internetrecht und Suchmaschinenoptimierung Links & Law SEO-Angebote Urteile zum Internetrecht Literatur zu SEO und Internetrecht  Lebenslauf / Impressum 

Suchmaschinen-Lexikon - Was ist das Deep Web? 

 

Das Deep Web (auch Hidden Web oder Invisible Web) bezeichnet den Teil des Internet, der bei einer Internetrecherche nicht über normale Suchmaschinen auffindbar ist. Im Gegensatz zum Deep Web werden die über Suchmaschinen zugänglichen Webseiten Visible Web (Sichtbares Web) oder Surface Web (Oberflächenweb) genannt. Das Deep Web besteht zu großen Teilen aus themenspezifischen Datenbanken (Fachdatenbanken) und Webseiten, die erst durch Anfragen dynamisch aus Datenbanken generiert werden. Grob kann das Deep Web unterschieden werden in "Inhalte, die nicht frei zugänglich sind" und "Inhalte, die nicht von Suchmaschinen indexiert werden". Die Größe des Deep Web kann nur geschätzt werden - es wird davon ausgegangen, dass es ein Vielfaches des direkt zugänglichen Webs umfasst. Suchmaschinen werden ständig weiterentwickelt, daher können Webseiten die gestern noch zum Deep Web gehörten heute schon Teil des Oberflächenwebs sein.

Eigenschaften

Nach einer Studie (Bergmann 2001) der Firma BrightPlant (http://www.brightplanet.com) ergeben sich für das Deep Web folgende Eigenschaften:

  • Die Datenmenge des Deep Web ist ca 400-550 mal größer als die des Surface Web

  • Das Deep Web beinhaltet 7500 Terabyte Informationen, das Surface Web 19 Terabyte (Anm. 1 Terabyte = 1024 Gigabyte)

  • Das Deep Web beinhaltet nahezu 550 Milliarden Persönliche Dokumente, das Surface Web eine Milliarde

  • Es existieren mehr als 200.000 Deep Websites

  • 60 der grössten Deep Web Seiten enthalten etwa 750 Terabyte an Informationen, was die Menge des Surface Web um den Faktor 40 übersteigt

  • Durchschnittlich haben Webseiten aus dem Deep Web monatlich 50% mehr Zugriffe, und sind öfter verlinkt als Webseiten aus dem Surface Web. Trotzdem ist der im Internet suchenden Öffentlichkeit die normale Deep Webseite kaum bekannt

  • Das Deep Web ist die am schnellsten wachsende Kategorie von neuen Informationen im Web

  • Deep Webseiten sind begrenzter und inhaltlich tiefer als Surface Webseiten

  • Inhalte des Deep Web sind qualitativ 1000 bis 2000 mal höherwertig als Inhalte des Surface Web

  • Inhalte des Deep Web sind bedeutetend für jede Informationsabfrage und jedes Wissensgebiet

  • Mehr als die Hälfte des Deep Web ist in themenspezifischen Datenbanken angesiedelt

  • Mehr als 95% des Deep Web sind frei zugänglich ohne dass Gebühren gezahlt werden müssten

Da Bright Planet mit DQM2 eine kommerzielle Suchhilfe anbietet, ist die stark überschätzte Größenangabe mit großer Vorsicht zu genießen. Die geschätze Datenmenge des Deep Web muss um einige Daten (http://www.brightplanet.com/technology/deepweb/Table2.asp) bereinigt werden:

  • Dubletten aus Bibliothekskatalogen die sich überschneiden

  • Datensammlung des National Climatic Data Center (370.000 GByte)

  • Daten der NASA (220.000 GByte)

  • weitere Datensammlungen (National Oceanographic Data Center & National Geophysical Data Center, Right to know Network, Alexa, ...)

Anhand der Anzahl der Datensätze zeigt sich, dass die Studie die Größe des Deep Web um das zehnfache überschätzt. Allein der Informationsanbieter Lexis Nexis zieht nach Anzahl der Datensätze mit dem Suchmaschinenprimus Google gleich. Das Deep Web ist daher sicher weitaus größer als das Oberflächenweb.

In einer Untersuchung (http://www.sims.berkeley.edu/research/projects/how-much-info-2003/internet.htm) der University of California, Berkeley aus dem Jahr 2003 wurden folgende Werte als Umfang des Internets ermittelt: Surface Web - 167 Terabyte, Deep Web - 91850 Terabyte. Die gedruckten Bestände der Library of Congress in Washington, der größten Bibliothek der Welt, umfassen 10 Terabyte.

Arten des Deep Web

Nach Sherman & Price (2001) werden 4 Typen des Invisible Web unterschieden: Opaque Web, Private Web, Proprietary Web, Invisible Web und Truly invisible Web.

Opaque Web, Webseiten die indiziert werden könnten, zur Zeit aber aus Gründen der Performance oder Aufwand-Nutzen-Relation nicht indiziert werden (Suchtiefe, Besuchsfrequenz)

Suchmaschinen berücksichtigen nicht alle Verzeichnisebenen und Unterseiten (max. 100 KB) einer Webseite. Beim Erfassen von Webseiten steuern Webcrawler über Links zu den folgenden Webseiten. Webcrawler selbst können nicht navigieren, sich sogar in tiefen Verzeichnisstrukturen verlaufen, Seiten nicht erfassen und nicht zurück zur Startseite finden. Aus diesem Grund berücksichtigen Suchmaschinen oft höchstens fünf oder sechs Verzeichnisebenen. Umfangreiche und somit relevante Dokumente können in tieferen Hierarchieebenen liegen und wegen der beschränkten Erschließungstiefe von Suchmaschinen nicht gefunden werden.

Dateiformate, die nur teilweise erfasst werden können (z.B. PDF, Google indiziert immer nur die ersten 120 KB - etwa 100.000 Textzeichen - einer PDF-Datei)

Häufigkeit der Indizierung einer Webseite (täglich, monatlich)

Ständig aktualisierte Datenbestände, Messdaten, Echtzeit-Daten

Webseiten ohne Hyperlinks oder Navigationsystem, unverlinkte Webseiten, Einsiedler-URLs oder Orphan-Seiten (engl. Waise)

Private Web, Webseiten die indiziert werden könnten, aber auf Grund von Zugangsbeschränkungen des Webmasters nicht indiziert werden: Webseiten im Intranet (interne Webseiten), passwortgeschützte Daten (Registrierung und evtl. Kennwort und Login), Zugang nur für bestimmte IP-Adressen, Schutz vor einer Indizierung durch den Robots Exclusion Standard, Schutz vor einer Indizierung durch die Meta-Tag-Werte noindex, nofollow und noimageindex im Quelltext der Webseite

Proprietary Web, Webseiten die indiziert werden könnten, die jedoch nur nach Anerkennung einer Nutzungsbedingung zugänglich sind (kostenlos oder kostenpflichtig)

Invisible Web, Webseiten die indiziert werden könnten, die jedoch aus kaufmänischen oder strategischen Gründen nicht indiziert werden

Truly Invisible Web, Webseiten die nicht indiziert werden können:  Datenbankformate die vor dem WWW entstanden sind (Einige Hosts), Dateiformate, die nicht erfasst werden können (zum Beispiel Flash und Grafikformate), komprimierte Daten, Webseiten, die nur über eine Benutzernavigation die Grafiken (Image Maps) oder Scripte (Frames) benutzt,  Dokumente, die nicht direkt im Browser angezeigt werden können, Nicht-Standardformate, Peer-to-Peer-Tauschbörsen, Multimedia-Dateien, FTP-Server, Chatroom, IRC, von Suchmaschinen absichtlich vernachlässigte Daten

Dieser Artikel basiert auf dem Artikel Deep Web aus der freien Enzyklopädie Wikipedia und steht unter der GNU-Lizenz für freie Dokumentation. In der Wikipedia ist eine Liste der Autoren verfügbar.

 


Inhalt

Erklärungen zu den wichtigsten Begriffen aus der Welt der Suchmaschinen

Zurück zur Übersicht: "Das Suchmaschinen-Lexikon".

 

Internetrecht-Startseite | Kontakt | Anwälte Internetrecht | Internetrecht-Suchmaschine

Copyright © 2002-2008  Dr. Stephan Ott 

 

 Werbung:

 Ich veranstalte ab dem 1.6.2008 ein Online-Seminar zur Suchmaschinenoptimierung! Mehr Informationen unter http://www.workshopwelt.de/workshop/1442/990.

Ferner können Sie von mir Ihre Website auf den Stand ihrer bisherigen Suchmaschinenoptimierung überprüfen lassen: Links & Law - Suchmaschinenoptimierung / Bayreuth & München.