Forum: PC-Programmierung Webseite mit Username und Password downloaden


von Anna (Gast)


Lesenswert?

Hallo,

ich habe ein Jahresabo bei einer Webseite, die verschiedene pdf-Datein 
(Übungsaufgaben für Kinder) zum Download zur Verfügung stellt. 
Allerdings nutze ich meinen Rechner oft ohne Internet und benötige meist 
dann einige Dateien, wenn ich das Internet nicht zur Verfügung habe, 
darum möchte ich mir gerne die Dateien herunterladen.

Dies ist aber sehr umständlich und
1.Einloggen
2.Wahl der Schulart, Klasse und des Fachs
3.Dann öffnet sich die Seite mit den Links zu den verschiedenen 
Aufgaben.
<http://www...../de/gymnasium/klasse-6/latein/felix-1.html>;
4.Ich klicke dann auf "Details" der jeweiligen Aufgabe und komme auf 
eine URL die wie folgt aufgebaut ist:
<http://www..../de/gymnasium/klasse-6/latein/felix-1/3af3fb3c-bf09-42c5-9e5c-f48daaaada36.html>;
oder
<http://www..../de/gymnasium/klasse-6/latein/felix-1/0cc1b5f6-6757-4442-81fc-c68daf414653.html>;

5.Nun lade ich mir die pdf-Files beiden URLs herunter:
<http://www...../CLDownload.ashx?File=1199&Schultyp=Gymnasium&Filetyp=PDF&Typ=aufgaben>;
<http://www...../CLDownload.ashx?File=1199&Schultyp=Gymnasium&Filetyp=PDF&Typ=loesungen>;

Welches Tool könnte die pdf Dateien dieser Webseite automatisiert 
herunterladen?

von Planlos (Gast)


Lesenswert?

Sollte am einfachsten mit einem entsprechenden 
Browser-Plugin/Erweiterung zu machen sein.

Beim Firefox ist z.B. "DownThemAll" recht gut bewertet. Versuchs mal 
damit.

https://addons.mozilla.org/de/firefox/addon/downthemall/

Für andere Browser gibt's sicher ähnliches.

von hp-freund (Gast)


Lesenswert?

Wenn Du Glück hast geht es sogar über ftp:

ftp://c****x.de

Dann kommt die Abfrage nach Benutzer und Passwort.
Klappt das, bekommst Du alle Dateien schön aufgelistet.

Ohne Garantie, aber einen Versuch wert denke ich ;-)

von Anna (Gast)


Lesenswert?

Danke für die Beiträge, hat aber beides leider nicht geklappt :-(

von Planlos (Gast)


Lesenswert?

Anna schrieb:
> Danke für die Beiträge, hat aber beides leider nicht geklappt :-(

Wenn "DownThemAll" nicht funktioniert, dann hat sich der Webmaster der 
Seite richtig viel Mühe gegeben, um den automatischen Download zu 
verhindern.

(==> auch mal die AGBs gegenlesen, vielleicht hat der Hausjurist in die 
Selbe Richtung gearbeitet)

Lässt sich zwar sicher alles umgehen, aber das wird, wenn dir die 
Erfahrung fehlt, ein ungleicher Kampf.

In den Sauren Apfel beißen und die Listen der Reihe nach Durchklicken 
ist vmlt. einfacher.

von hp-freund (Gast)


Lesenswert?

Du kannst dir noch den "echten" download link ansehen.
Also nicht den CLDownload.ashx?File=1199&Schultyp... sondern den der die 
Wirkliche *.pdf Datei angibt.
Vielleicht lässt sich damit was machen.

von Anna (Gast)


Lesenswert?

Ich sehe leider nichts anderes als
http://www...../CLDownload.ashx?File=0355&Schultyp=Gymnasium&Filetyp=PDF&Typ=aufgaben

oder das
//*[@id="ctl00_CplEasyBaseContent_ctl01_LinkAufgabePdf"]

Wie kann ich den direkten Link sehen? Das PDF wird entweder sofort 
heruntergeladen, oder ich seh diesen eigenartigen Link dazu.

Ich kann mir auch eine Vorschau direkt im Explorer ansehen.
Im Quellcode sehe ich irgendwas mit Java-Script...
und so eigenartige Sachen:
/WebResource.axd?d=r2eUxfJeLq6Wse_Zzsnfgd_0x0xf8TH4ZBeEwXlXPGjSCP8hYuAsJ 
OXYVpFRBwiGc93vG-qOlPHX7J9KUEy6jXO3rpc1&amp;t=635588654575142005

von D. I. (Gast)


Lesenswert?

Schau dir halt mal mit Firebug an was so requested wird.

von hp-freund (Gast)


Lesenswert?

In Firefox wie auch in IE kannst Du wenn die pdf im Download Manager 
steht mit der rechten Maustaste auf diese gehen und den "Download-Link 
kopieren".

von getter (Gast)


Lesenswert?

Probier mal den unter Windows:
http://www.httrack.com/
Ansonsten sollte wget alles runterladen können:
https://www.gnu.org/software/wget/

von c. m. (Gast)


Lesenswert?

firefox mit cookie exporter plugin und wget.
du loggst dich auf der seite ein, speicherst dann die cookies von 
firefox in z.b. cookies.txt.
dann rufst du wget auf, übergibst als parameter die cookie datei, und 
mirrorst rekrusiv den zielhost.
1
wget -np -m --load-cookies ~/cookiest.txt http://zielhost.com/

kann noch sein das du einen anderen user-agent abgeben musst, also z.b. 
firefox statt wget.
problem könnte auch noch sein das die PDF's dämliche namen haben.

von Skyper (Gast)


Lesenswert?

Wenn zu der Lösung auch etwas programmieren dazugehören darf, dann kann 
ich Greasemonkey für FireFox empfehlen. Die Seite kann man schön in FF 
mit den Inspektor analysieren und dann sich in JavaScript ein passendes 
Script bauen, was dann in FireFox für diese Seite abläuft und z.B. dann 
alle PDF-Links nacheinander anklickt und herrunter lädt. Auch die 
Auswahl im Vorfeld etc. läßt sich automatisieren...

Ich habe das gerade erfolgreich verwendet, um Warenkörbe zu exportieren 
in einen bestimmten CSV Format...

von Anna (Gast)


Lesenswert?

Danke!
Ich habe mir die cookies.txt erstellt und wget unter window installiert, 
cmd geöffnet und erhalte nun folgende Meldung
1
SYSTEM_WGETRC = c:/progra~1/wget/etc/wgetrc
2
syswgetrc = C:\Program Files (x86)\GnuWin32/etc/wgetrc
3
--2015-08-17 23:43:13-- http://url.de/
4
Auflösen des Hostnamen >>url.de<<.... 11.22.33.44
5
Verbindungsaufbau zu url.de|11.22.33.44|:80... verbunden
6
HTTP Anforderung gesendet, warte auf Antwort... 301 Moved Permanently
7
Platz: http//url.de/[folge]
8
--2015-08-17 23:43:14-- http://url.de/
9
Auflösen des Hostnamen >>url.de<<.... 11.22.33.44
10
Wiederverwendung der bestehenden Verbindung zu url.de|:80
11
HTTP Anforderung gesendet, warte auf Antwort...302 Found
12
Platz: /127/de/home.html[folge]
13
--2015-08-17 23:43:14-- http://url.de/127/de/home.html
14
Wiederverwendung der bestehenden Verbindung zu url.de|:80.
15
HTTP Anforderung gesendet, warte auf Antwort... 200 OK
16
Länge: 87748 (86K) [text/html]
17
In >>www.url.de/127/de/home.html<< speichern.
18
19
100%[===============================<] 87.748     198K/s  in 0,4s
20
21
>>Last-modified<<-Kopfzeile fehlt -- Zeitstempel abgeschaltet.
22
2015-08.17 23:43:15 (198KB/s) - >>www.url.de/127/de/home.html<< gespeichert
23
24
[87748/87748]
25
26
Beendet --2015-08-17 23:43:15--
27
Geholt: 1 Dateien, 86K in 0,4s (198 KB/s)

Ich habe auch mal eine Unterseite versucht, erhalte aber die gleiche 
Ausgabe :-(

von getter (Gast)


Lesenswert?

Anna schrieb:


>
> 100%[===============================<] 87.748     198K/s  in 0,4s
>
>>>Last-modified<<-Kopfzeile fehlt -- Zeitstempel abgeschaltet.
> 2015-08.17 23:43:15 (198KB/s) - >>www.url.de/127/de/home.html<<
> gespeichert
>
> [87748/87748]
>
> Beendet --2015-08-17 23:43:15--
> Geholt: 1 Dateien, 86K in 0,4s (198 KB/s)
> [/c]
>
> Ich habe auch mal eine Unterseite versucht, erhalte aber die gleiche
> Ausgabe :-(

Lies mal die Doku durch:
https://www.gnu.org/software/wget/manual/wget.html
Sonst probier mal aus ob:
http://www.httrack.com/
auch nix mehr als die Startseite runterlädt.

Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.