Forum: Offtopic Was speichern Suchmaschinen (Speichervolumen des Servers?)


von Jeffrey L. (the_dude)


Lesenswert?

Hi,
ich schreibe das hier bewusst ins offtopic, da die Frage weniger ein 
PC-Problem bzw. Anwenderfrage ist sondern vermutlich nur abgeschätzt 
werden kann und eher in Richtung Ressoucenverbrauch, Datenschutz und 
Allgemeinbildung (Netzkomeptenz) geht.

Also, hat jemand eine Vorstellung, "was" eine Suchmaschine alles 
abspeichert?
Meine Theorie: Da die Suchmaschinen innerhalb weniger Millisekunden 
meine Anfrage beantworten, müssen sie schon im Vorfeld Wissen 
zusammentragen - eine Echtzeitsuche im Internet (auf "allen" verfügbaren 
Internetseiten) halte ich für ausgeschlossen.

Bedeutet doch dann aber im Umkehrschluss, dass Suchmaschinen eben jeden 
verfügbaren Text im Internet bei sich abspeichern?
Wenn ich eine Webseite über rechte Herrenhalbschuhe aus braunem 
Rindsleder erstelle, kommt gurgel irgendwann mal vorbei und kopiert den 
gesamten Text zu sich auf den Server in eine Datenbank. (schon hier 
dürfte das Urheberrecht kritisch einfließen).

Und wenn morgen dann jemand eben nach rechte Herrenhalbschuhe aus 
braunem Rindsleder sucht, hat die Suchmaschine einen Eintrag in ihrer DB 
der mit dem Suchstring übereinstimmt und den Hinweis, dass der 
eingetippt Text auf meiner Webseite vorhanden ist, richtig?

Aber:
1. Wir reden hier ja von Millionen (Milliarden) von Texten - kann es 
wirklich sein, dass eine Suchmaschine diese Texte wirklich "alle" zu 
sich kopiert hat? das benötigt immens viel Speicherplatz.

2. Wenn die Annahme in 1 richtig ist, wie kann ein Server die Einträge 
alle komplett als Volltextsuche durchsuchen? Suche ich nur nach "rechtem 
Lederschuh" müsste ja ebenso ein Treffer erscheinen. Die Suchmaschine 
vergleicht also nicht nur 1-zu-1 sondern auch Varianten!?
Kann so etwas wirklich in < 200ms geschehen? --> Parallelisiert auf zig 
hundert (tausend) Suchanfragen weltweit gleichzeitig?

3. es gibt ja sicher nicht "den" Server bei bing, google, yahoo ect. 
d.h. die Daten sind redundant weltweit auf unterschiedliche 
Rechenzentren verteilt. Bedeutet, dass man den benötigten Speicherplatz 
hierfür nicht 1x sondern zig mal vorhalten muss?
Wie viele "identische" Server betreibt denn eine Suchmaschine wie google 
oder bing?

umso mehr ich darüber nachdenke, umso mehr denke ich, dass das ein 
gigantisches Ressoucenloch ist - es geht ja nicht nur um Texte, 
zwischenzeitlich betreiben ja fast alle Suchmaschinen auch Systeme die 
Bilder erkennen und interpretieren - wenn ich nach "Haus" suche, kommen 
eben Fotos von Häusern - das steckt neben noch mehr Speicher auch viel 
KI und Rechnerleistung dahinter, oder?


Ich bin mir aber nicht sicher, ob das alles so stimmt oder ob ich eine 
Denkfehler im Ansatz habe? - kann es wirklich sein, dass hier Tera- und 
Petabyte an Speicher "verschwendet" werden? oder wird das irgendwie 
"smarter" gelöst? z.B. nur hashes der Webseiten, Texte und Bilder? aber 
wie sollte das funktionieren?

von Matthias S. (matthias_s)


Lesenswert?

https://en.m.wikipedia.org/wiki/Search_engine_(computing)

Dort im Abschnitt "Types of search engines" gibt es weitere 
Verlinkungen, wie das für verschiedenste Medientypen implementiert wird, 
und was die Probleme dabei sind.

von Purzel H. (hacky)


Lesenswert?

Da du dir auch die History von Webseiten anschauen kannst, werden die 
alle abgespeichert. Der Text Content is eher der kleinste Teil des 
Volumens. Der Textcontent wird also indexiert, und dann nochmals durch 
verschiedene Stufen von Relevanz Extractoren gelassen.

Ein Problem sind natuerlich kontextabhaengige Seiten.

von Irgend W. (Firma: egal) (irgendwer)


Lesenswert?

Jeffrey L. schrieb:
> kann es wirklich sein, dass hier Tera- und
> Petabyte an Speicher "verschwendet" werden? oder wird das irgendwie
> "smarter" gelöst? z.B. nur hashes der Webseiten, Texte und Bilder? aber
> wie sollte das funktionieren?

Schau mal auf Googles Infoseite vorbei:
- https://www.google.com/intl/de/about/datacenters/

- 
https://www.computerbild.de/fotos/Google-gibt-Einblick-in-die-Rechenzentren-7836821.html#1

Und der blanke Text von einer Web-Seite ist meist garnicht mal soviel. 
Schlimmer ist das ganze Formatierungs-Drumherum. Das benötigt mal hier 
aber nicht.

Der Größre Schpeicherfresser scheien eher Videos zu sein und nicht die 
Texte.

Zitat: "Rund ein Petabyte Speicherkapazität muss Google täglich seinem 
Storage-Pool hinzufügen, vor allem für seinen Videodienst YouTube."
- 
https://www.heise.de/newsticker/meldung/Google-stellt-Forderungen-an-die-Festplattenhersteller-3119370.html

von Egon D. (Gast)


Lesenswert?

Jeffrey L. schrieb:

> Bedeutet doch dann aber im Umkehrschluss, dass
> Suchmaschinen eben jeden verfügbaren Text im
> Internet bei sich abspeichern?

Text abspeichern -- ja, aber nicht zwingend den
GANZEN Text. "und", "oder", "die", "mit", "weil"
kommt in fast allen (deutschen) Texten vor;
"Gepardenforelle" oder "Schabrackenschakal" dagegen
nicht.
Häufige Worte schränken die Treffermenge wenig ein;
es lohnt u.U. nicht, die immer mit abzuspeichern.


> Aber:
> 1. Wir reden hier ja von Millionen (Milliarden) von
> Texten - kann es wirklich sein, dass eine Suchmaschine
> diese Texte wirklich "alle" zu sich kopiert hat? das
> benötigt immens viel Speicherplatz.

Naja.
Bei geschriebenen natürlichsprachigen Texten kann man von
einer Produktivität von höchstens einigen tausend Zeichen
je Stunde ausgehen.

Audiodateien benötigen -- je nach Qualität -- einige
tausend Byte (=einige KByte) je Sekunde Spieldauer.

Der Speicherbedarf von Standbildern (Photos) liegt grob
über den Daumen in der Größenordnung von einem Megabyte
je Bild.

Videos brauchen -- auch abhängig von der Qualität --
Megabyte je Sekunde . Eine Stunde Spieldauer liegt
also in der Größenordnung von Gigabyte.

Soll heißen: Die Speicherung von natürlichsprachigem Text
ist das bei weitem kleinste Problem.


> 2. Wenn die Annahme in 1 richtig ist, wie kann ein Server
> die Einträge alle komplett als Volltextsuche durchsuchen?

Gar nicht.
Er baut einen Index auf und benutzt dabei u.a. den Trick,
der in jedem Lexikon verwendet wird: Sortierung.
Stichwort: "binäre Suche".


> Kann so etwas wirklich in < 200ms geschehen?

Selbstverständlich.
Um unter einer Milliarde (sortierter) Stichworte ein
bestimmtes zu finden, braucht man lediglich 30 Zugriffe.
Das schafft ein aktueller PC schätzungsweise in 1µs.


Und wer den groben Hammer bevorzugt: Bereits in den
frühen 90ern waren Spezialchips in der Lage, 160MByte/s
Volltext zu durchsuchen --"ftpsearch.ntnu.no" lässt
grüßen...


> umso mehr ich darüber nachdenke, umso mehr denke ich,
> dass das ein gigantisches Ressoucenloch ist

Das ist so, ja.

Das fällt dem Endnutzer nur deshalb nicht auf, weil der
ganze Wahnsinn werbefinanziert ist.


> Ich bin mir aber nicht sicher, ob das alles so stimmt
> oder ob ich eine Denkfehler im Ansatz habe?

Keinen grundsätzlichen, nein.

von Rainer Z. (netzbeschmutzer)


Lesenswert?

Dass Google tatsächlich speichert, erkennst Du u.a. an der 
Cache-Funktion. Dort findest Du u.U. noch Seiten, die der Anbieter 
inzwischen geändert oder gelöscht hat.

Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.