Webseite herunterladen

von Christian Kramer (Gast)

15.06.2021 09:42

Lesenswert?

•

Hi

Folgendes Problem:
Auf einer Webseite kann mit über eine Suchmaske (mit javascript 
gestaltet) auf Tausende Wissenschaftsartikeln zugriefen. Auf den 
jeweiligen Artikelnseiten gibt es dann zumeist ein Dutzend pdf Dokumente 
zum Thema.

Ich möchte nun die Seite in ihrem kompletten Umfang herunterladen, 
zumindest die Artikelseiten mit den jeweiligen pdf´s


Wie bekomm ich dies am einfachsten hin? Problem ist wohl, dass sie 
Artikelseiten ausschließlich über die Suchmaske erreichbar sind und 
nicht über irgendwelche Links auf der Webseite...

Beitrag melden Bearbeiten Thread verschieben Thread sperren Anmeldepflicht aktivieren Anpinnen Thread löschen Thread mit anderem zusammenführen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Webseite herunterladen

von Scharfrichter (Gast)

15.06.2021 09:48

Lesenswert?

•

▲
▼

Christian Kramer schrieb:
> Ich möchte nun die Seite in ihrem kompletten Umfang herunterladen
Oft ist das in den Nutzungsbedingungen der Webseite untersagt, und führt 
bei Zuwiderhandlung unweigerlich zu mehrjährigen Haftstrafen.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Webseite herunterladen

von AchDerSchonWieder (Gast)

15.06.2021 09:51

Lesenswert?

•

▲
▼

Unter Linux:
wget -r -l 0  URL

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Webseite herunterladen

von Christian Kramer (Gast)

15.06.2021 10:12

Lesenswert?

•

▲
▼

die Suchergebnisse haben dann in der URL Leiste das folgende Format:

example.com/article/result=[string]

[string] ist immer 484 Zeichen lang ist und besteht aus Klein- und 
Großbuchstanben, sowie Ziffern und die Zeichen "-" und "_", also 64 
Möglichkeiten pro Stelle


[string] ändert sich auch nicht, ist beim selben Artikel immer 
identisch, egal wann und auf welchen Geräten man die Seite öffnet

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Webseite herunterladen

von Mario M. (thelonging)

15.06.2021 10:45

Lesenswert?

•

▲
▼

Christian Kramer schrieb:
> und die Zeichen "-" und "_", also 64
> Möglichkeiten pro Stelle

Sieht aus wie Base64URL-kodiert. Was kommt beim Dekodieren raus?

https://base64.guru/standards/base64url/decode

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Webseite herunterladen

von Gunnar F. (gufi36)

15.06.2021 10:55

Lesenswert?

•

▲
▼

ich habe so was schon mit HTtrack gemacht. Kannst du ja mal probieren .

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Webseite herunterladen

von Spongebob Sprengkopf (Gast)

15.06.2021 10:58

Angehängte Dateien:

yeah-sure.jpg
70 KB

Lesenswert?

•

▲
▼

Scharfrichter schrieb:
> Oft ist das in den Nutzungsbedingungen der Webseite untersagt, und führt
> bei Zuwiderhandlung unweigerlich zu mehrjährigen Haftstrafen.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Webseite herunterladen

von Εrnst B. (ernst)

15.06.2021 11:05

Lesenswert?

•

▲
▼

Scharfrichter schrieb:
> Oft ist das in den Nutzungsbedingungen der Webseite untersagt, und führt
> bei Zuwiderhandlung unweigerlich zu mehrjährigen Haftstrafen.

im UrhG §87c sind die Ausnahmen geregelt, wann das "wget -r" zum 
Duplizieren der Artikeldatenbank erlaubt wäre. Leider alles mit 
Querverweisen hin und her, ist also einiges zu Lesen. "Mehrjährige 
Haftstrafen" hab ich dort nicht gefunden.

https://www.gesetze-im-internet.de/urhg/__87c.html

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Webseite herunterladen

von Gunnar F. (gufi36)

15.06.2021 11:07

Lesenswert?

•

▲
▼

ich komme in 8 Monaten wieder raus, ohne Sicherheitsverwahrung!

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Webseite herunterladen

von .● Des|ntegrator ●. (Firma: FULL PALATINSK) (desinfector)

15.06.2021 11:08

Lesenswert?

•

▲
▼

erinnert irgendwie fast an Jstor
und Aaron Schwartz...

der wollte auch mal zuviel donloaden

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Webseite herunterladen

von Percy N. (vox_bovi)

15.06.2021 11:09

Lesenswert?

•

▲
▼

Εrnst B. schrieb:
> "Mehrjährige Haftstrafen" hab ich dort nicht gefunden.

Möglicherweise wurde § 202 a StGB überdehnt.

Ich halte es allerdings eher für Ironie.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Webseite herunterladen

von berbog (Gast)

15.06.2021 11:30

Lesenswert?

•

▲
▼

Ich würde mal den Jdownlader probieren

https://jdownloader.org/

Gruss Bernd

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Webseite herunterladen

von Georg (Gast)

15.06.2021 12:32

Lesenswert?

•

▲
▼

Christian Kramer schrieb:
> auf Tausende Wissenschaftsartikeln zugriefen

Einfach das ganze Internet herunterladen, da ist dann das richtige schon 
dabei.

Georg

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Webseite herunterladen

von Percy N. (vox_bovi)

15.06.2021 12:39

Lesenswert?

•

▲
▼

Gunnar F. schrieb:
> ohne Sicherheitsverwahrung

So etwas gibt es ohnehin nicht.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Webseite herunterladen

von Scharfrichter (Gast)

15.06.2021 12:40

Lesenswert?

•

▲
▼

Georg schrieb:
> Einfach das ganze Internet herunterladen, da ist dann das richtige schon
> dabei.
Um Gottes Willen, das führt zu mehrfach lebenslänglich 😱

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Webseite herunterladen

von Christian Kramer (Gast)

15.06.2021 14:23

Lesenswert?

•

▲
▼

Mario M. schrieb:
> Christian Kramer schrieb:
>> und die Zeichen "-" und "_", also 64
>> Möglichkeiten pro Stelle
>
> Sieht aus wie Base64URL-kodiert. Was kommt beim Dekodieren raus?
>
> https://base64.guru/standards/base64url/decode

leider nix, kommt nichts bei raus...
hier mal ein string:

03AGdBq26Us66M1pxQxfuUwFzWundM9zL-5BvgUIGwqWKS60KkHcR0dIeJp83CKEzCoAFt0kKskJNTW1D8Hw0DgRi8Uu94-W9ZV9U_4gIh4Fdqd4_gHdc-ApsP6egDTzUs6Ve7eCzfgpBQjamPrnbxWpKe2YKjGMOzBIzw7c-6M8DyxUFLIq46YDgHtKtLLd7JaUpEjEkMNqqTVhVOvrcEl2QkedHwUUov9SZ8u25xfsyoI1VUyWc-KdYNhXKYx3WeEzKpzF13JVvK2d3dNUJ4P8q_ieZb8_mVtuURtVX79F4GN0kW4JS-TcJC42h_1Ksr3rvdAmT5UD2J6Y1Nmghqh_FyaO5p6aP5fEgzyZvUy2NtJiQ1rPNV1OjuRcYikJTuc9vDZoHIHA5ebgHSERHxmVEhUZt7VR7a3Y4Mwn7hnQd9LqHf40od1MnYVja9xNGKJujetuRXJOXG2bCQ3WcLRe3pQ87sotauwA

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Webseite herunterladen

von Dieter (Gast)

15.06.2021 15:47

Lesenswert?

•

▲
▼

Scharfrichter schrieb:
> Um Gottes Willen, das führt zu mehrfach lebenslänglich 😱

Die Stromrechnung kann der TO niemals zahlen fuer den Traffik und die 
Speichermedien. Die CO2 Blockwarte werden ihn lebenslaenglich in 
Schutzgewahrsam, bzw. Sicherheitsverwahrung, nehmen.

Hat der TO es schon mit wget oder curl versucht?
Aussagen dazu glaube ich ohne Glaskugel nicht gesehen zu haben.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Webseite herunterladen

von rbx (Gast)

15.06.2021 16:31

Lesenswert?

•

▲
▼

Christian Kramer schrieb:
> Wie bekomm ich dies am einfachsten hin?

Einfach die gesuchte Pdf herunterladen (falls möglich).

Inwieweit die Referenzen eine Rolle spielen bzw. ob man die überhaupt 
braucht, muss man erstmal gucken, aber es gibt natürlich diese lästige 
Unkultur der Linkorgien.
Meistens kann man die nötigen Refs aber auch noch mal einzeln suchen, 
und extra herunterladen.
Oft ist es aber auch so, dann findet man die eine oder andere Referenz 
gar nicht, bzw. nur mit Sonderrechten, Buch vergriffen usw.
Kann man meistens auch mit klarkommen - wenn auch schade, und so manche 
Ref ist auch noch deutlich verständlicher und weniger linkverseucht, als 
der Original-Artikel. Das gilt vor allem für viele ganz alte Artikel - 
die man oft aber eher in Bibliotheken als 
Papierversion/Zeitschriftartikel findet.

Nur mal als Beispiel:
https://web.mit.edu/alexmv/6.037/sicp.pdf
Man arbeitet erstmal so gut es geht, konzentriert das jeweilige Kapitel 
durch, und schaut anschließend nach den Referenzen, ob man die noch 
braucht zum Verständnis, zur Vertiefung, oder warum auch immer.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Webseite herunterladen

von Zensor (Gast)

15.06.2021 16:35

Lesenswert?

•

▲
▼

Mario M. schrieb:
> Re: Webseite herunterladen

Und dann hier zeigen damit die mods richtig löschen können…

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Webseite herunterladen

von qq (Gast)

15.06.2021 16:48

Lesenswert?

•

▲
▼

https://www.cyotek.com/cyotek-webcopy
kannst du mal probieren.
Ansonsten liefert Google viele online und offline programme, 
kostenpflichtige, demos, freeware...ist alles dabei.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Webseite herunterladen

von Christian Kramer (Gast)

15.06.2021 18:11

Lesenswert?

•

▲
▼

Dieter schrieb:
> Hat der TO es schon mit wget oder curl versucht?

wget hat nur die Webseite inkl. einiger Unterseiten heruntergelanden, 
keinen einzigen der besagten Artikeln



qq schrieb:
> https://www.cyotek.com/cyotek-webcopy
> kannst du mal probieren.

hier wird bereits im Vorfeld gesagt:
"What can WebCopy not do?
WebCopy does not include a virtual DOM or any form of JavaScript 
parsing. If a website makes heavy use of JavaScript to operate, it is 
unlikely WebCopy will be able to make a true copy if it is unable to 
discover all of the website due to JavaScript being used to dynamically 
generate links."

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Webseite herunterladen

von OhMann (Gast)

15.06.2021 18:22

Lesenswert?

•

▲
▼

Schon mal mit ftp probiert?
Bei einigen .edu Seiten landet man mit ftp im Archiv
der Site und kann sich entsprechende Dokumente herunter laden.
Könnte evt. auch hier funktionieren.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Webseite herunterladen

von Christian Kramer (Gast)

15.06.2021 18:46

Lesenswert?

•

▲
▼

ftp geht leider auch net

bin aber einen Schritt weiter.
Hab nun aber eine möglichkeit gefunden. Kann einen Artikel mit diesem 
Linkformat herunterladen:
example.com/article/numConst=12345678

Die Artikel sind aber wild verteilt, das heißt, der nächste Artikel ist 
nicht etwa ...12345679 sondern kommt vielleicht erst bei ...12345800

wie würdet ihr nun weiter vorgehen?

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Webseite herunterladen

von rbx (Gast)

15.06.2021 19:43

Lesenswert?

•

▲
▼

Christian Kramer schrieb:
> wie würdet ihr nun weiter vorgehen?

die anderen oben genannten (einschlägigen) "Taktiken" durchprobieren.
FTP war früher, so zur Jahrtausendwende eine gute Strategie.., Sachen zu 
finden/ bzw. herunterzuladen.
Es gab sogar ziemlich gute FTP-Suchmaschinen.

Bei Downloads mit Adresse und wilder Verteilung müsste man halt "zu Fuß" 
abschreiben, bzw. in eine (Download-) Liste eintragen und dann 
herunterladen lassen.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Webseite herunterladen

von Εrnst B. (ernst)

15.06.2021 23:33

Lesenswert?

•

▲
▼

Christian Kramer schrieb:
> wie würdet ihr nun weiter vorgehen?

Wenn die Webseite so vehement versucht, sich aktiv gegen illegale 
Downloads zu wehren, brauchst du einen größeren Hammer.

Headless Chrome würde sich anbieten:
https://developers.google.com/web/updates/2017/04/headless-chrome

oder headless firefox, selenium & co, evtl. auch ein altes phantomjs.

Allen gemeinsam: Sie implementieren deutlich mehr "Browser" als reine 
Download-Tools, führen also auch Javascript aus.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Webseite herunterladen

von .● Des|ntegrator ●. (Firma: FULL PALATINSK) (desinfector)

16.06.2021 08:02

Lesenswert?

•

▲
▼

warum sollte man eigentlich noch immer alles mögliche downloaden wollen,
wenn es heutzutage genügend Leute parallel gibt,
die die selben Infos ins Web stellen.
Wir sind langsam in einer Zeit angekommen, wo man fragen kann,
wo man denn KEINEN Internetzugang hat.

Das allermeiste ist ausserdem doch mittlerweile so oft verfügbar,
dass ich es verstehen würde, wenn es langsam mal einen Filter gibt,
der nach der Massgabe einen Upload verhindert,
dass es das beabsichtigte schon mehrfach gibt.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Webseite herunterladen

von CRT (Gast)

16.06.2021 08:57

Lesenswert?

•

▲
▼

> die die selben Infos ins Web stellen

Das taeuscht.
Beispiel: TCPMP-Player fuer Windows.
Gibt es, allerdings weitgehend unbrauchbar, zigmal an zig Stellen
zum Download.
Das fehlende AAC (oder war es das AVC?)-Plugin gab es mal an
genau einer Stelle.

Allerdings wird der TO mit seinen Downloads auch nicht gluecklich
werden. Viele Publikationen sind nur mit dem entsprechenden
Fachwissen verstaendlich. Der TO scheitert ja schon an einfachen
technischen Dingen.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Webseite herunterladen

von Christoph db1uq K. (christoph_kessler)

16.06.2021 09:15

Angehängte Dateien:

ct13_2021_S145.txt (1,41 KB)

Lesenswert?

•

▲
▼

>curl
in der letzten c't gab es einen Artikel dazu. In Firefox soll es damit 
recht einfach sein, Videos herunterzuladen. Von pdf ist nicht die Rede.

Ich habe diesen Tipp noch nicht ausprobiert, klingt aber 
vielversprechend.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Webseite herunterladen

von .● Des|ntegrator ●. (Firma: FULL PALATINSK) (desinfector)

16.06.2021 09:41

Lesenswert?

•

▲
▼

CRT schrieb:
> Das taeuscht.
> Beispiel: TCPMP-Player fuer Windows.
> Gibt es, allerdings weitgehend unbrauchbar, zigmal an zig Stellen
> zum Download

wieso, das IST doch gerade das was ich meine.

Wenn es das Ding schon an einigen Stellen gibt,
warum müssen es dann erst noch zig Stellen werden?

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Webseite herunterladen

von Georg (Gast)

16.06.2021 09:44

Lesenswert?

•

▲
▼

● Des I. schrieb:
> der nach der Massgabe einen Upload verhindert,
> dass es das beabsichtigte schon mehrfach gibt.

Das ist gegen die Natur des Internets. Ein Berufsfotograf, der vor 
Jahren eine bekannte Ansicht eines Canyons in den USA aufgenommen und 
veröffentlicht hat, wollte 20 Jahre später mal sehen, was aus seinem 
Bild geworden ist - bei Instagram fand er 26000 Fast-Kopien davon, und 
im Canyon gibt es an vielen Tagen kaum noch Stehplätze.

Selbst wenn man weiss, dass es ein Bild vom Kölner Dom schon 10000 mal 
im Netz gibt, das hält niemanden davon ab seine persönliche Version der 
Welt zu präsentieren.

Georg

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Webseite herunterladen

von Thomas (Gast)

16.06.2021 09:52

Lesenswert?

•

▲
▼

Christoph db1uq K. schrieb:
>>curl
> in der letzten c't gab es einen Artikel dazu. In Firefox soll es damit
> recht einfach sein, Videos herunterzuladen. Von pdf ist nicht die Rede.
>
> Ich habe diesen Tipp noch nicht ausprobiert, klingt aber
> vielversprechend.

Funktioniert.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Webseite herunterladen

von Christoph db1uq K. (christoph_kessler)

16.06.2021 13:42

Lesenswert?

•

▲
▼

Was heißt "Funktioniert"? Für Videos oder auch für das Problem des TO?

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Webseite herunterladen

von Εrnst B. (ernst)

16.06.2021 14:31

Angehängte Dateien:

firefox_cUrl.png
71 KB

Lesenswert?

•

▲
▼

Christoph db1uq K. schrieb:
> Was heißt "Funktioniert"? Für Videos oder auch für das Problem des TO?

Du kannst im Firefox-Debugger auf einen beliebigen Netzwerk-Request 
klicken, und dort "copy as cUrl" auswählen. In der Zwischenablage hast 
du dann eine Kommandozeile, die den Request 1:1 mittels cUrl nachbaut, 
also mit allen Headers, Cookies, Referer usw.

Hilft, wenn der Download nur wegen solcher Sachen nicht automatisch 
klappt.

Hilft dem TE aber vmtl. nicht viel weiter, denn er braucht ja die URLs 
zuerst, und die kommen aus Javascript. Und jede Datei erst einmal von 
Hand im Firefox herunterzuladen, nur um sie anschließend ein zweites Mal 
per Kommandozeile laden zu können, ist eher Sinnbefreit.

Insofern: Headless Chrome, Seite aufrufen lassen, Suche ausführen 
lassen, Downloads auf "automatisch akzeptieren" stellen, querySelektor 
auf alle PDF-Links, alle anklicken lassen, fertig.

Und wenn es nicht ganz ohne GUI laufen muss, tut's vielleicht auch der 
normale Webbrowser und ein wenig Copy&Paste-JavaScript in der Konsole 
oder als Bookmarklet.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Webseite herunterladen

von CRT (Gast)

16.06.2021 14:45

Lesenswert?

•

▲
▼

> wieso, das IST doch gerade das was ich meine.

Was an "unbrauchbar" ist dir nicht verstaendlich?
Ohne AAC/AVC funktioniert kein MP4.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Webseite herunterladen

von Remo_1234@jappy.de (Gast)

16.06.2021 15:01

Lesenswert?

•

▲
▼

Sowas zu tun ist nur was für Maskenkasper und Systemschafe!

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Forum: PC Hard- und Software Webseite herunterladen