Forum: PC Hard- und Software Datenbestände konsolidieren unter Linux - per Checksumme Backups testen und Duplikate killen


von PatChris (Gast)


Lesenswert?

Hallo zusammen!

Bei mir haben sich über die Jahre größere Datenbestände angehäuft, die 
auf verschiedenen Datengrab- und Backup-Platten schlummern.

Ich möchte hier gern vernünftig aufräumen und alles zusammen führen und 
ein vernünftiges Backup-Konzept entwickeln, leider finde ich keine 
passenden (Linux-) Tools, wahrscheinlich suche ich nach den falschen 
Stichworten oder denke zu kompliziert.

Am Ende soll ein kompletter Bestand aller Daten an zwei örtlich 
getrennten Orten  liegen. Neuzugänge möchte ich auf einer von beiden 
Seiten hinzufügen, sie sollen dann über's Netz auf die jeweils entfernte 
Seite synchronisiert werden. Das dürfte mit rsync oder ähnlich 
hinzukriegen sein.

Schwieriger finde ich das Zusammenwerfen der Daten. Ein paar Sachen habe 
ich doppelt und dreifach in verschiedenen Backups. Ich kann nicht 
einfach Checksummen aller Dateien bilden und doppelte löschen - manchmal 
muss eine Datei ja mehrfach vorhanden sein.

Zum Testen der Backups bei kompletter Auslagerung von Daten könnte das 
allerdings sinnvoll sein. Beispielszenario:
 * Ich schleppe 15 Ordner mit 200GB Digitalbildern ständig mit mir rum, 
obwohl ich sie nicht ständig im Zugriff brauche - die SSD im Notebook 
läuft voll. Es gibt jeweils Backups (Kopien) der ältesten 14 Ordner.
 * Ich kopiere die 15 Ordner vom Notebook auf das Datengrab A.
 * Datengrab A repliziert die 15 Ordner mit der Zeit auf Datengrab B und 
ist nach 3 bis 4 Tagen fertig.
 * Auf Datengrab B werden Checksummen der Dateien in den 15 Ordnern 
gebildet und ich lade sie bei Gelegenheit runter.
 * Nun kann ich aus den 15 Ordnern alle Dateien mit identischen 
Checksummen löschen. Sind die Ordner hinterher leer, weiss ich, dass 
beide Kopien auf den Datengräbern intakt sind.
 * Jetzt kann ich aus allen Foto-Backups ebenfalls alle Dateien mit 
identischen Checksummen löschen.

So würde ich im Foto-Fall irgendwann auf einen grünen Zweig kommen. Das 
kann ich leider z.B. bei Programmcode nicht machen, weil eine in 
mehreren Projekten benötigte Library o.ä. ja bitte da drin bleiben soll 
;)

Ist meine Idee komplett abwegig oder gar bescheuert? Hat da jemand einen 
Tipp für mich, wie ich da ggf. besser vorgehen kann? Oder gibt es eine 
Software, die da vielleicht helfen könnte?

Patrick Christian

von Lukey (Gast)


Lesenswert?

Ich kann git-annex empfehlen, man braucht zwar etwa eine Woche bis man 
sich eingearbeitet hat aber danach braucht man sich kaum mehr um anzahl 
der kopien, wo ist was etc. zu kümmern. Deduplizierung auf dateiebene 
findet per design statt.
http://git-annex.branchable.com/

von Harald W. (wilhelms)


Lesenswert?

Lukey schrieb:

> Ich kann git-annex empfehlen,

Funktioniert das auch mit Windows(7)?

von 123789 (Gast)


Lesenswert?

Wenn du mit der Sortiererei fertig bist, würde ich dir raten, timeshift 
zu verwenden.
Fürs Sortieren würde ich evt empfehlen ein entsprechendes Skript selbst 
zu schreiben, welches die Änderungsdaten vergleicht und entsprechend 
Hardlinks anlegt, so ähnlich wie timeshift, das reduziert den genutzten 
Speicherplatz erheblich.

von Lukey (Gast)


Lesenswert?

Harald W. schrieb:
> Lukey schrieb:
>
>> Ich kann git-annex empfehlen,
>
> Funktioniert das auch mit Windows(7)?

Mehr oder weniger...
http://git-annex.branchable.com/todo/windows_support/

von Nano (Gast)


Lesenswert?

Mit dem Tool fdupes (unter Linux) kannst du die doppelten Dateien auch 
finden.

Bei Programmen könntest du mit symbolischen links arbeiten, bei 
verschiedenen Betriebssystemen wird's da aber schwierig.

Ein Dateisystem wie ZFS bietet das Feature depulikation. Das macht das 
alles automatisch, hat aber den Nachteil, dass es sehr viel RAM kostet 
und du noch ECC RAM brauchst.

Die Checksummmen würde ich übrigens auf dem Medium erstellen, wo du das 
zuerst machen kannst. Also auf dem Notebook.
Denn bei der Übertragung oder Speicherung könnten die Daten theoretisch 
kaputt gehen.
Theoretisch, weil die Übertragungsmedien in der Regel entsprechende 
Sicherungsschichten haben um genau so etwas zu verhindern.

von Georg A. (georga)


Lesenswert?

Es gibt auch OpenDedup (opendedup.org). Die bilden ein deduplizierendes 
Filesystem auf ein normales ab. Geht auch mit der Cloud, und ist gerade 
da sehr sinnvoll. Es wird ja nicht nur der teure Speicherplatz 
reduziert, sondern die Anzahl der PUTs, die ja auch was kosten. Und dann 
läuft es unter Linux und Windows.

Zumindest theoretisch. Praktisch finde ich es trotz aller vollmundiger 
Aussagen ziemlich buggy, vermutlich weil der Core in dem Java-Dreck 
geschrieben ist und nach einiger Laufzeit immer langsamer wird und 
obskurere Fehler bis zum Stillstand bringt. Wird auch von Veritas als 
S3/Azure/etc-Interface für Backup Exec beworben, aber auch da ist es ein 
Tamagotchi. Bei unserer Anwendung steigt es fast jede zweite Woche bei 
der Cloud-Deduplizierung von ca. 2TB aus und hängt dann alle Backup-Jobs 
auf, auch die primären lokalen Backups :(

Aber YMMV.

: Bearbeitet durch User
von oszi40 (Gast)


Lesenswert?

Georg A. schrieb:
> und hängt dann alle Backup-Jobs auf

Genau da ist der wunde Punkt, daß manchmal durch exotische Namen oder 
Überlängen etwas hängt. Man sollte erst mal sicher sein, daß ALLES 
gesund auf MEHR als einem Backupmedium angekommen ist. Nachdem ich vor 
Jahren ca. 100kg defekte Festplatten ausgetauscht habe, beschleichen 
mich ein paar Zweifel, ob EIN Backup reicht. Messwerte und Fotos könnten 
unwiederbringlich sein! 8-)

Eine einzige Prüfzahl garantiert noch keinen gescheiten Inhalt. Man 
sollte schon bei der Dateibezeichnung auf sinnreiche Konventionen achten 
um später schneller mit EINFACHEN Mitteln suchen zu können. In 20 Jahren 
wird keines der heutigen Backupprogramme mehr laufen. ls -a 
2019_01_10Temperatur* könnte noch funktionieren?

von TestX (Gast)


Lesenswert?

Eine zeitgmäße Lösung wäre ein filesystem mit checksummen wie zB btrfs 
(inkl snapshots) oder ext4 mit metadata checksums (kernel..)

das ganze auf einem raid etc..

rsync/rsnapshot oder borgbackup wäre geeignete backupprogramme. generell 
sollten die beiden externen backups keinerlei beziehung zueinander 
haben, sprich autark sein

von oszi40 (Gast)


Lesenswert?

TestX schrieb:
> das ganze auf einem raid etc..

Ein Raid ist kein Backup. Ein Irrtum rm -r geht schnell.

von TestX (Gast)


Lesenswert?

@oszi40

bitte mal im richtigen kontext lesen...das raid ist für die 
verfügbarkeit und checksummen prüfung für das dateisystem...das hat 
nichts mit backup zu tun

Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.