Forum: PC Hard- und Software Wie archiviert ihr Websites?

Autor: Walter T. (nicolas)

Datum: 24.07.2019 17:22

Bewertung

0	▲ lesenswert ▼ nicht lesenswert

Hallo zusammen,

aus aktuellem Anlaß bin ich neugierig: Wie archiviert ihr Websites? 
Früher™ kannte Opera ein schönes Seiten-Archivier-Format namens "MHT", 
in dem sich Seite und Bilder speichern ließen. Aktuelle Versionen können 
das noch lesen, aber nicht mehr speichern. Die HTML-Datei mit Bildern 
speichern, wie es jeder Browser kann, müllt die Festplatte mit kleinen 
Dateien zu. Als PDF drucken ist oft schwierig, weil viele Websites 
mittlerweile Templates benutzen, die für den Ausdruck völlig ungeeignet 
sind. In vielen Browsern kann ich einen Screenshot speichern, der über 
den sichtbaren Bereich hinausgeht. Nach Text suchen kann ich darin aber 
nicht.

Deshalb die Frage: Wie archiviert ihr Websites, die für euch nützliche 
Notizen enthalten?

24.07.2019 19:16:

Beitrag melden Bearbeiten Thread verschieben Thread sperren Anmeldepflicht DEaktivieren Thread löschen Thread mit anderem zusammenführen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Wie archiviert ihr Websites?

Autor: Jörg W. (dl8dtl) (Moderator)

Datum: 24.07.2019 17:50

Bewertung

-1	▲ lesenswert ▼ nicht lesenswert

Walter T. schrieb:
> Die HTML-Datei mit Bildern speichern, wie es jeder Browser kann, müllt
> die Festplatte mit kleinen Dateien zu.

Ich habe eigentlich eher Probleme mit Programmen, die die Festplatte mit 
großen Dateien zumüllen. ;-) Insofern würde ich mir über ein paar 
Dateien zu viel für abgespeicherte Webseiten keine große Rübe machen.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Wie archiviert ihr Websites?

Autor: Peter M. (r2d3)

Datum: 24.07.2019 17:55

Bewertung

0	▲ lesenswert ▼ nicht lesenswert

Hallo Walter T.,

Walter T. schrieb:
> aus aktuellem Anlaß bin ich neugierig: Wie archiviert ihr Websites?

Webseiten oder ganze Domänen?!

Einzelne Webseiten speichere ich, wenn der Ausdruck in eine PDF-Datei 
scheitert, im MAFF-Format ab.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Wie archiviert ihr Websites?

Autor: Janek G. (dm3jan)

Datum: 24.07.2019 18:07

Bewertung

0	▲ lesenswert ▼ nicht lesenswert

Walter T. schrieb:
> Deshalb die Frage: Wie archiviert ihr Websites, die für euch nützliche
> Notizen enthalten?

http://web.archive.org/ ;-)

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Wie archiviert ihr Websites?

Autor: Walter T. (nicolas)

Datum: 24.07.2019 18:09

Bewertung

0	▲ lesenswert ▼ nicht lesenswert

Jörg W. schrieb:
> Ich habe eigentlich eher Probleme mit Programmen, die die Festplatte mit
> großen Dateien zumüllen. ;-) Insofern würde ich mir über ein paar
> Dateien zu viel für abgespeicherte Webseiten keine große Rübe machen.

Hallo Jörg und Peter,

das Problem ist: Es läppert sich. Etliche Websites bestehen aus 
tausenden von winzigen Dateien. Irgendwann habe ich mal festgestellt, 
daß solche Ansammlungen ungefähr die Hälfte der Zeit, die mich ein 
Backup kosteten, dominierte. Als ich jene Ordner als ZIP komprimierte, 
ging die Zeit von sechs auf drei Stunden herunter. Seitdem achte ich auf 
dieses Kleinvieh.

Peter M. schrieb:
> Webseiten oder ganze Domänen?!

Einzelne Seiten. Ganze Domänen, die so interessant wären, daß ich sie 
dauerhaft aufbewahren wollte, habe ich schon lange nicht mehr gesehen.

Peter M. schrieb:
> MAFF-Format

Da das Format alles andere als zukunftsfähig aussieht, gehe ich davon 
aus, daß Du jetzt auch einen Nachfolger suchst?

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Wie archiviert ihr Websites?

Autor: Peter M. (r2d3)

Datum: 24.07.2019 18:13

Bewertung

0	▲ lesenswert ▼ nicht lesenswert

Walter T. schrieb:
> Da das Format alles andere als zukunftsfähig aussieht, gehe ich davon
> aus, daß Du jetzt auch einen Nachfolger suchst?

Bisher funktioniert alles und daher suche ich gerade nicht, aber 
profitiere natürlich gerne von Deinen Erfahrungen! :)

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Wie archiviert ihr Websites?

Autor: Jörg W. (dl8dtl) (Moderator)

Datum: 24.07.2019 18:17

Bewertung

0	▲ lesenswert ▼ nicht lesenswert

Walter T. schrieb:
> Etliche Websites bestehen aus tausenden von winzigen Dateien.

Gut; so viele habe ich nun auch nicht für archivierungswürdig befunden 
bislang.

> Irgendwann
> habe ich mal festgestellt, daß solche Ansammlungen ungefähr die Hälfte
> der Zeit, die mich ein Backup kosteten, dominierte.

Ich benutze Bacula fürs Backup. Ich vermute, das hat auch Kosten pro 
Datei, insbesondere hinsichtlich der Datenbankeinträge, während es beim 
Streamen aufs Tape wohl keine Rolle spielen düfte (da habe ich aber 
mittlerweile auch eine kleine SSD als Pufferspeicher reingehängt).

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Wie archiviert ihr Websites?

Autor: Marek N. (bruderm)

Datum: 24.07.2019 18:20

Bewertung

0	▲ lesenswert ▼ nicht lesenswert

Einzelne Seiten: in PDF drucken oder den Text und die paar Bilder mit 
Strg+C in ein Text-Dokument reinkopieren.
Ganze Domänen: Mit WinHTTrack oder wget abgrasen.

Walter T. schrieb:
> Ganze Domänen, die so interessant wären, daß ich sie
> dauerhaft aufbewahren wollte, habe ich schon lange nicht mehr gesehen.

Schon mal da vorbeigeschaut? 
https://www.americanradiohistory.com/index.htm

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Wie archiviert ihr Websites?

Autor: JJ (Gast)

Datum: 24.07.2019 18:37

Bewertung

0	▲ lesenswert ▼ nicht lesenswert

Ich habe einen kleinen Wallabag Server für so etwas laufen:
https://wallabag.org/en

Alternativ kannst du auch Mozilla Pocket nutzen.

Beides sind Dienste die eine (einzelne) Seite downloaden, archivieren 
und kategorisieren.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Beitrag #5917931 wurde von einem Moderator gelöscht.

Re: Wie archiviert ihr Websites?

Autor: Ingo W. (uebrig)

Datum: 24.07.2019 19:08

Angehängte Dateien:

Wie_archiviert_ihr_Websites__-_Mikrocontroller.net.html (126 KB, 9 Downloads)

Bewertung

0	▲ lesenswert ▼ nicht lesenswert

Habe im Firefox, das Plugin "Save Page WE", das speichert eine HTML, mit 
externen Inhalten, als Base-64 eingebettet. Dieses Format kann auch 
Chromium lesen.
Hat gegenüber dem Ausdruck als PDF den Vorteil, das auch Links noch 
funktionieren.
Früher hatte ich mal ein Plugin für MHT, das wurde aber eingestellt.
Die MHT-Dateien kann ich aber mit Chromium auch noch lesen.
Alternativ habe ich auch schon interessante Teile der Website über die 
Zwischenablage in LibreOfficeWriter eingefügt, dann als PDF exportiert, 
dann bleiben die Links auch erhalten und man erhält ein Vernünftiges 
Inhaltsverzeichnis.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Wie archiviert ihr Websites?

Autor: Walter T. (nicolas)

Datum: 24.07.2019 19:09

Bewertung

0	▲ lesenswert ▼ nicht lesenswert

Völlig richtig schrieb im Beitrag #5917931:
> Weiß jeder, nur nicht Jörg.

Das weiß auch Jörg. Nur ist das Problem unter Linux oft weniger schlimm, 
weil dort viele Dateisysteme das Backup-Programm besser unterstützen, 
als nur mit einem lausigen Archiv-Bit. Da muß das Backup-Programm nicht 
bei jedem Durchlauf wieder jede Datei vergleichen.

Janek G. schrieb:
> http://web.archive.org/ ;-)

Wie wirst Du diesen Thread wiederfinden, wenn darin einmal die perfekte 
Lösung steht? Achive.org ist nicht unvergeßlich, und manches kommt erst 
gar nicht hinein.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Wie archiviert ihr Websites?

Autor: Gunnar F. (gufi36)

Datum: 25.07.2019 09:24

Bewertung

0	▲ lesenswert ▼ nicht lesenswert

Auch ich möchte mir oft gute Webseiten speichern, zumal bestimmte 
Rechner bei mir zuhause ausschliesslich offline sind. (Und bleiben!)

Früher habe ich immer den InternetExplorer -> speichern unter MHT Format 
genutzt. Das gibt eine kompakte Datei, wo alles nötige drin ist.
Ich glaube, die aktuellen Versionen können das nicht mehr :-(

1. Ich speichere als html, nutze 7zip, um die HTML-Datei und den 
gleichnamigen Ordner in eine Datei zu komprimieren und aktiviere 
gleichzeitig das Löschen der Quelldateien. Das 7zip kann ich dann in 
mein Archiv schieben. Es wird dort in einem speziellen Ordner 
"entpackt", der nicht "gebackupt" wird. I.e. alles was da drin ist, kann 
jederzeit gelöscht werden.

2. WinHTTrack ist nicht nur für ganze Domänen gut, sonder auch für 
Unterseiten, wie "Tutorials" o.ä.

3. Microsoft OneNote kann noch Webseiten als MHT speichern. Ich weiss 
aber nicht wie das geht, habe bisher nur von Nutzern dieser App welche 
erhalten.

25.07.2019 09:54: Bearbeitet durch User

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Wie archiviert ihr Websites?

Autor: Matthias L. (limbachnet)

Datum: 25.07.2019 10:29

Bewertung

0	▲ lesenswert ▼ nicht lesenswert

Marek N. schrieb:
> Einzelne Seiten: in PDF drucken oder den Text und die paar Bilder mit
> Strg+C in ein Text-Dokument reinkopieren.
> Ganze Domänen: Mit WinHTTrack oder wget abgrasen.

Genau so mache ich das bei Bedarf auch.

Bei dynamisch generierten Inhalten ist das aber auch nur begrenzt 
hilfreich... :-/

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Wie archiviert ihr Websites?

Autor: Christobal M. (c_m_1)

Datum: 25.07.2019 11:19

Bewertung

0	▲ lesenswert ▼ nicht lesenswert

Matthias L. schrieb:
> Marek N. schrieb:
>> Einzelne Seiten: in PDF drucken oder den Text und die paar Bilder mit
>> Strg+C in ein Text-Dokument reinkopieren.
>> Ganze Domänen: Mit WinHTTrack oder wget abgrasen.
>
> Genau so mache ich das bei Bedarf auch.
>
> Bei dynamisch generierten Inhalten ist das aber auch nur begrenzt
> hilfreich... :-/

Dafür nehme ich eine per selenium ferngesteuerte firefox instanz - man 
sagt dem Browser "lade diese url", der browser macht das und führt auch 
entsprechende js scripte aus (anders als curl oder wget), und zum 
schluss kann man sich den gesamten gerenderten quelltext zurückgeben 
lassen.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Thread beobachten |

Seitenaufteilung abschalten

Antwort schreiben

Wichtige Regeln - erst lesen, dann posten!

Groß- und Kleinschreibung verwenden
Längeren Sourcecode nicht im Text einfügen, sondern als Dateianhang

Formatierung (mehr Informationen...)

[c]C-Code[/c]
[avrasm]AVR-Assembler-Code[/avrasm]
[code]Code in anderen Sprachen, ASCII-Zeichnungen[/code]
[math]Formel in LaTeX-Syntax[/math]
[[Titel]] - Link zu Artikel
Verweis auf anderen Beitrag einfügen: Rechtsklick auf Beitragstitel,
"Adresse kopieren", und in den Text einfügen

Name:	Teo D. (teoderix)
Betreff:
Ähnliche Beiträge werden gesucht... [ausblenden]
Dateianhang:
	Bild automatisch verkleinern, falls nötig

	Bitte das JPG-Format nur für Fotos und Scans verwenden! Zeichnungen und Screenshots im PNG- oder GIF-Format hochladen. Siehe Bildformate.

Text:

Thread beobachten
Mit dem Abschicken bestätigst du, die Nutzungsbedingungen anzuerkennen.

Kontakt/Impressum – Datenschutzerklärung – Nutzungsbedingungen – Werbung auf Mikrocontroller.net

Name	Vote gesamt	Beiträge
Walter T. (nicolas)	0	3
Jörg W. (dl8dtl) (Moderator)	-1	2
Peter M. (r2d3)	0	2
Janek G. (dm3jan)	0	1
Marek N. (bruderm)	0	1
JJ (Gast)	0	1
Ingo W. (uebrig)	0	1
Gunnar F. (gufi36)	0	1
Matthias L. (limbachnet)	0	1
Christobal M. (c_m_1)	0	1

mikrocontroller.net

Forum: PC Hard- und Software Wie archiviert ihr Websites?

Antwort schreiben

Wichtige Regeln - erst lesen, dann posten!

Formatierung (mehr Informationen...)

Votes