Hallo zusammen. Dass man Daten von Webseiten scrapen kann, wissen wir ja. Man wählt z.B. den gewünschten Tag über ein Webtool aus, welches einem die relevanten Seiten auf einer Webseite liefert. Der entsprechende Pfad/Tag zum gewünschten HTML-Element wird einem dann vom Webtool geliefert, womit man dann z.B. über Excel die Daten in eine Zelle schreiben lassen kann. Nun gibt es im Internet einige Tutorials, wie man Daten über einen Cloud-Dienst (z.B. Google Spreadsheet) nutzen kann. Durch die Funktion "=importXML(url,query)" lassen sich somit in Google Spreadsheet die Daten einer Seite scrapen. Nun geht es um eine Webseite, die ein Anfragenlimit von 5 Anfragen pro Minute limitiert. Anhand der eigenen IP-Adresse ermittelt vermutlich die besagte Seite, wie oft der User eine Anfrage pro Zeiteinheit abgesetzt hat. Ist die Anzahl der zulässigen Abfragen pro Zeiteinheit überschritten, kommt die Meldung, dass man eine Minute warten muss um wieder Anfragen an die Seite zu schicken. Anhand der IP-Adresse des Anfragenden ist es ja kein Problem, die Anfragen aus Sicht des Seitenbetreibers zu limitieren. Wie aber verhält es sich bei Cloud-Diensten? Welche "IP" nehmen die her, wenn ich die Daten z.B. über den Google Sheet-Dienst scrape? Holt sich die Seite dann eine fiktive IP von Google oder leitet Google meine IP vom ISP an die Seite weiter? Ich hoffe, ich konnte die Frage einleuchtend beschreiben und hoffe auf eure Hilfe! Vielen Dank!
Joh schrieb: > Wie aber verhält > es sich bei Cloud-Diensten? Welche "IP" nehmen die her, die IP woher die anfrage kommt. > wenn ich die > Daten z.B. über den Google Sheet-Dienst scrape? geht das denn überhaupt? Ich könnte mir vorstellen das sie das gar nicht zulassen.
Probier es doch einfach mal aus. Scrappe doch ein paar mal die Seite wieistmeineip.de
Die Website mit dem Abfragelimit sieht ja nur die reale IP Adresse des Cloud-Dienstes. Wenn der Cloud-Dienst mehrere Benutzer auf den selben Server legt, glaubt das Abfragelimit ihr seit nur ein Benutzer. Im Http-Header gibt es ein X-Forwarded-For. Aber den kann das Abfragelimit nicht benutzen. Lässt sich recht einfach fälschen.
Joh schrieb: > Welche "IP" nehmen die her, wenn ich die > Daten z.B. über den Google Sheet-Dienst scrape? Holt sich die Seite dann > eine fiktive IP von Google oder leitet Google meine IP vom ISP an die > Seite weiter? Als Seitenbetreiber sehe ich die IP von dem Cloud-Dienst (hier Google) und die ist gar nicht "fiktiv". Joh schrieb: > Nun geht es um eine Webseite, die ein Anfragenlimit von 5 Anfragen pro > Minute limitiert. Anhand der eigenen IP-Adresse ermittelt vermutlich die > besagte Seite, wie oft der User eine Anfrage pro Zeiteinheit abgesetzt > hat. Wenn mir sowas in den Logs öfter auffällt, dann gibts je nach Art entweder eine Abuse-Meldung oder ist kante die IP/Range dauerhaft raus (htaccess). So ein Limit ist ja nicht zum Spaß eingebaut. Diese Datensammler kosten mich nur unnötig Geld und verbrauchen Bandbreite die bei richtigen Besuchern dann womöglich fehlt.
Beitrag #5970505 wurde von einem Moderator gelöscht.
Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.