mikrocontroller.net

Forum: PC Hard- und Software Wie archiviert ihr Websites?


Autor: Walter T. (nicolas)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
Hallo zusammen,

aus aktuellem Anlaß bin ich neugierig: Wie archiviert ihr Websites? 
Früher™ kannte Opera ein schönes Seiten-Archivier-Format namens "MHT", 
in dem sich Seite und Bilder speichern ließen. Aktuelle Versionen können 
das noch lesen, aber nicht mehr speichern. Die HTML-Datei mit Bildern 
speichern, wie es jeder Browser kann, müllt die Festplatte mit kleinen 
Dateien zu. Als PDF drucken ist oft schwierig, weil viele Websites 
mittlerweile Templates benutzen, die für den Ausdruck völlig ungeeignet 
sind. In vielen Browsern kann ich einen Screenshot speichern, der über 
den sichtbaren Bereich hinausgeht. Nach Text suchen kann ich darin aber 
nicht.

Deshalb die Frage: Wie archiviert ihr Websites, die für euch nützliche 
Notizen enthalten?

Autor: Jörg W. (dl8dtl) (Moderator) Benutzerseite
Datum:

Bewertung
0 lesenswert
nicht lesenswert
Walter T. schrieb:
> Die HTML-Datei mit Bildern speichern, wie es jeder Browser kann, müllt
> die Festplatte mit kleinen Dateien zu.

Ich habe eigentlich eher Probleme mit Programmen, die die Festplatte mit 
großen Dateien zumüllen. ;-) Insofern würde ich mir über ein paar 
Dateien zu viel für abgespeicherte Webseiten keine große Rübe machen.

Autor: Peter M. (r2d3)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
Hallo Walter T.,

Walter T. schrieb:
> aus aktuellem Anlaß bin ich neugierig: Wie archiviert ihr Websites?

Webseiten oder ganze Domänen?!

Einzelne Webseiten speichere ich, wenn der Ausdruck in eine PDF-Datei 
scheitert, im MAFF-Format ab.

Autor: Janek G. (dm3jan)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
Walter T. schrieb:
> Deshalb die Frage: Wie archiviert ihr Websites, die für euch nützliche
> Notizen enthalten?

http://web.archive.org/ ;-)

Autor: Walter T. (nicolas)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
Jörg W. schrieb:
> Ich habe eigentlich eher Probleme mit Programmen, die die Festplatte mit
> großen Dateien zumüllen. ;-) Insofern würde ich mir über ein paar
> Dateien zu viel für abgespeicherte Webseiten keine große Rübe machen.

Hallo Jörg und Peter,

das Problem ist: Es läppert sich. Etliche Websites bestehen aus 
tausenden von winzigen Dateien. Irgendwann habe ich mal festgestellt, 
daß solche Ansammlungen ungefähr die Hälfte der Zeit, die mich ein 
Backup kosteten, dominierte. Als ich jene Ordner als ZIP komprimierte, 
ging die Zeit von sechs auf drei Stunden herunter. Seitdem achte ich auf 
dieses Kleinvieh.

Peter M. schrieb:
> Webseiten oder ganze Domänen?!

Einzelne Seiten. Ganze Domänen, die so interessant wären, daß ich sie 
dauerhaft aufbewahren wollte, habe ich schon lange nicht mehr gesehen.

Peter M. schrieb:
> MAFF-Format

Da das Format alles andere als zukunftsfähig aussieht, gehe ich davon 
aus, daß Du jetzt auch einen Nachfolger suchst?

Autor: Peter M. (r2d3)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
Walter T. schrieb:
> Da das Format alles andere als zukunftsfähig aussieht, gehe ich davon
> aus, daß Du jetzt auch einen Nachfolger suchst?

Bisher funktioniert alles und daher suche ich gerade nicht, aber 
profitiere natürlich gerne von Deinen Erfahrungen! :)

Autor: Jörg W. (dl8dtl) (Moderator) Benutzerseite
Datum:

Bewertung
0 lesenswert
nicht lesenswert
Walter T. schrieb:
> Etliche Websites bestehen aus tausenden von winzigen Dateien.

Gut; so viele habe ich nun auch nicht für archivierungswürdig befunden 
bislang.

> Irgendwann
> habe ich mal festgestellt, daß solche Ansammlungen ungefähr die Hälfte
> der Zeit, die mich ein Backup kosteten, dominierte.

Ich benutze Bacula fürs Backup. Ich vermute, das hat auch Kosten pro 
Datei, insbesondere hinsichtlich der Datenbankeinträge, während es beim 
Streamen aufs Tape wohl keine Rolle spielen düfte (da habe ich aber 
mittlerweile auch eine kleine SSD als Pufferspeicher reingehängt).

Autor: Marek N. (bruderm)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
Einzelne Seiten: in PDF drucken oder den Text und die paar Bilder mit 
Strg+C in ein Text-Dokument reinkopieren.
Ganze Domänen: Mit WinHTTrack oder wget abgrasen.

Walter T. schrieb:
> Ganze Domänen, die so interessant wären, daß ich sie
> dauerhaft aufbewahren wollte, habe ich schon lange nicht mehr gesehen.

Schon mal da vorbeigeschaut? 
https://www.americanradiohistory.com/index.htm

Autor: JJ (Gast)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
Ich habe einen kleinen Wallabag Server für so etwas laufen:
https://wallabag.org/en

Alternativ kannst du auch Mozilla Pocket nutzen.

Beides sind Dienste die eine (einzelne) Seite downloaden, archivieren 
und kategorisieren.

Autor: Völlig richtig (Gast)
Datum:

Bewertung
0 lesenswert
nicht lesenswert
Walter T. schrieb:
> das Problem ist: Es läppert sich. Etliche Websites bestehen aus
> tausenden von winzigen Dateien. Irgendwann habe ich mal festgestellt,
> daß solche Ansammlungen ungefähr die Hälfte der Zeit, die mich ein
> Backup kosteten, dominierte. Als ich jene Ordner als ZIP komprimierte,
> ging die Zeit von sechs auf drei Stunden herunter. Seitdem achte ich auf
> dieses Kleinvieh.

Völlig richtig.

Und genau diese kleinen Dateien halten auf.

Kopiere ich eine große Datei mit 10MB auf einen USB Stick, geht das 
relativ zügig,

Kopiere ich aber viele kleine Dateien mit Gesamt 10 MB auf einen USB 
Stick, dauert es und dauert es.

Weiß jeder, nur nicht Jörg.

Antwort schreiben

Wichtige Regeln - erst lesen, dann posten!

  • Groß- und Kleinschreibung verwenden
  • Längeren Sourcecode nicht im Text einfügen, sondern als Dateianhang

Formatierung (mehr Informationen...)

  • [c]C-Code[/c]
  • [avrasm]AVR-Assembler-Code[/avrasm]
  • [code]Code in anderen Sprachen, ASCII-Zeichnungen[/code]
  • [math]Formel in LaTeX-Syntax[/math]
  • [[Titel]] - Link zu Artikel
  • Verweis auf anderen Beitrag einfügen: Rechtsklick auf Beitragstitel,
    "Adresse kopieren", und in den Text einfügen
Name:Ingo W. (uebrig)


Bild automatisch verkleinern, falls nötig
Bitte das JPG-Format nur für Fotos und Scans verwenden!
Zeichnungen und Screenshots im PNG- oder
GIF-Format hochladen. Siehe Bildformate.

Thread beobachten
Mit dem Abschicken bestätigst du, die Nutzungsbedingungen anzuerkennen.

Lade...