Forum: PC Hard- und Software Dokumente wie digital ablegen / OCR-Fragen


von Mr X. (Firma: keine) (fargotof)


Lesenswert?

Moin,

ich habe mal ein paar Fragen zur "Best Practice" / Erfahrungswerten. Ich 
möchte erstmal testhalber das eine oder andere meiner Dokumente digital 
ablegen (Parallel zur Papierablage, es geht mir aktuell nicht darum, 
diese zu ersetzen, sondern darum, auf bestimmte Dokumente auch unterwegs 
zugreifen zu können).

- Weil es wirklich "nicht viele" sind, reicht mir ehrlich gesagt 
vermutlich, einfache Scans abzulegen
- Trotzdem bin ich gedanklich dabei natürlich auch über die Variante 
gestolpert, mit OCR-Lösungen auch Durchsuchbarkeit zu erzeugen.

Frage: Was ist für letzteres eure übliche Herangehensweise? Es gibt ja 
diverse Lösungen, die den Originalscan in eine .pdf packen, und 
unsichtbar(?) drüber den per OCR erkannten Text. Scheint mir für mich 
sinnvoller, auf diese Weise das originale Layout beizubehalten, als die 
Herangehensweise, die Formatierung des Dokuments erkennen zu wollen, um 
z.B. auch Word/.../-Export zu haben, weil bearbeiten will ich eigentlich 
nichts mehr.

Frage: Falls ich mir doch mal einzelne Passagen extrahieren möchte, um 
sie z.B. in meinen Notizen ablegen zu können: Tesseract scheint mir hier 
ja ein gutes Stichwort zu sein, gibt es da gute Lösungen, die das 
nutzen, aber noch ein bisschen GUI drum herum stricken? Z.B. zur Auswahl 
einzelner Passagen, ..?

Ich hoffe, die Frage erscheint Euch nicht zu vage, aber ich wollte es 
vermeiden, erst zehn schlechte Lösungen auszuprobieren, wenn ihr 
bestimmt guten Input liefern könnt :)

VG
FargoTof

von Stefan F. (Gast)


Lesenswert?

Mache das so, wie du es wirklich brauchst. Nicht alles machen, nur weil 
es möglich ist.

von Christoph K. (backdraft007)


Lesenswert?

https://github.com/paperless-ngx/paperless-ngx
Mal so in den Raum geworfen.

von Heinz B. (Firma: Privat) (hbrill)


Lesenswert?

Ich mache das auch so mit PDF beim Scannen.
Ob jetzt PA, Führerschein usw. oder auch Rechnungen u.a.

Man braucht halt später nur einen PDF-Reader zum Lesen.

von Bernd (b_b304)


Lesenswert?

Ich habe vor einiger Zeit komplett auf "papierlos" umgestellt. D.h. ich 
sammle alle Zettel, und einmal im Monat schiebe ich sie durch den 
Einzugsscanner.
Das hat sich ziemlich gut bewährt. Vor allem die Durchsuchbarkeit und 
der Zugriff von Unterwegs haben mir schon oft das Leben gerettet :-)

Um das ganze weitestgehend zu automatisiren, habe ich mir folgendes 
Skript gebaut. Vielleichts hilfts Dir ja:
1
#!/bin/bash
2
3
# Scan the image using scanimage (TIFF is used because it can contain multiple pages)
4
echo "Scanning pages"
5
mkdir scans_temp
6
scanimage --device-name "brother5:bus1;dev2" -y 297.0 -x 210.0 --mode "Black & White" --resolution 400 --AutoDeskew=yes --source "Automatic Document Feeder(left aligned,Duplex)" --batch="scans_temp/scan%d.pnm" --format=pnm
7
8
# Convert to PDF using ImageMagick
9
echo "Converting images to PDF"
10
convert scans_temp/*.pnm document.pdf
11
12
# Use OCRmyPDF to add OCR layer. Store result in home folder
13
echo "Applying OCR to PDF"
14
file_name=~/$(date +"%Y")_Source_Topic.pdf
15
ocrmypdf -l deu --output-type pdfa --pdfa-image-compression jpeg document.pdf $file_name
16
17
# Cleanup
18
rm -rf scans_temp
19
rm document.pdf
20
21
# Open file
22
xdg-open $file_name

Dabei werden "scanimage", "ImageMagick" und "OCRmyPDF" verwendet. Die 
Dateien sind nachher schön klein, sehen gut aus und die OCR klappt 
hervorragend.

: Bearbeitet durch User
von Musik og F. (musikog_f)


Lesenswert?

Viele nuzen Paperless und es hat eine hilfreiche Community.
Eine OCR über einen Scan rüberbügeln ist 2023 ein Leichtes. KI Erkennung 
von Dokumententyp und Experption von z.B. Kontonummern, 
Forderungsbeträgen, Geschäftszeichen etc geht heute auch. Dann ist der 
Beleg auch gleich gebucht. Braucht man das als Privater?
Wieviele Dokumente sollen rein, wieviel kommen per anno dazu, wieviele 
Nutzer?

Wichtiger ist:
Bau dir deinen eigenen Schalgwortkatalog. Das Ding MUSS zukunftsstabil 
sein. Der Katalog muss auch in 50 Jahren noch passen. Feiner Verästeln 
kann man immer, wenn du den Stamm durchsägst, fällt der Schlagwortbaum 
um.
Die 10 goldenen Regeln eines unbrauchbaren Schlagwortkatalog:
https://www.biblio.at/medien/pdf/biblio_beschlagwortung.pdf

von Der G. (Firma: schlechthin) (gastgeber)


Lesenswert?

finereader djvu

von Andi (chefdesigner)


Lesenswert?

Bernd schrieb:
> Ich habe vor einiger Zeit komplett auf "papierlos" umgestellt.

Das ist eine tolle Idee. Hatte ich auch gemacht mit den Rechnungen und 
allem. Dann aber gab es dauernd Rückfragen zu einzureichenden Rechnugen 
vom Finanzamt, weil heute immer mehr Rechnungen gefälscht werden. 
Reichts du papierlos ein, kriegst du mehr Rückfragen. Die Originale 
müssen in jedem Fall aufbehalten werden.

von Heinz B. (Firma: Privat) (hbrill)


Lesenswert?

Ja, ja, das olle Finanzamt.
Andere Ämter (z.b. Berufsgenossenschaft, Katasteramt usw.) aktzeptieren 
das schon als Bild oder PDF. Gerade letzte Woche gemacht. Unsere vor 
zweieinhalb
Jahren verstorbene Mutter als Gewerbetreibende abgemeldet und die 
Sterbeurkunde als PDF hochgeladen und auf Erbengemeinschaft (mein Bruder
und ich) umgemeldet.

War damals in den 50gern noch von meinem Opa. Der hatte damals noch
2 Stück Vieh, 2 Schweine und Ackerland, was in ländlichen Gegenden
oft üblich war. In den 60ern kam das Vieh weg und in den den 70ern,
als die Autobahn kam und die Äcker an den Staat gingen, war ja auch
das Land weg. Bloß haben sich unsere Eltern nie darum gekümmert und
die ca. 90 € jedes Jahr fleißig an die BG gezahlt.

Man kommt zwar nicht mehr aus der BG heraus (außer Tod), ich kann
aber Freistellung der Zahlung beantragen, da das Grundstück schon
seit 50 Jahren Rasen ist und auch weniger als 2,5 Hektar groß ist.

von Andi (chefdesigner)


Lesenswert?

Heinz B. schrieb:
> 90 € jedes Jahr fleißig an die BG gezahlt.
Na toll - kann man das nicht zurückholen? 30 Jahre lang mit Zinsen sind 
etliche Tausende. Klar, die rühren sich von selber nicht.

Ich hatte auch Eltern mit Bauenhof in Schwabach. Nach deren Ableben 
haben wir rausbekommen, daß die seit 30 Jahren etliche Äcker verpachtet 
haben. Die Nutzer haben nichts bezahlt, weil es vergessen wurde 
einzutreiben. Einer hat sogar Besitzansprüche angemeldet werden 
"Ersitzens" und hat es verkauft. War ein Akt, das zurückzuholen.

von Heinz B. (Firma: Privat) (hbrill)


Lesenswert?

Andi F. schrieb:
> Na toll - kann man das nicht zurückholen?

Nein, gezahlte Beiträge erstatten die nicht zurück. Steht auch
dort so. Sogar der letzte Beitrag, den wir letzten Monat gezahlt
hatten,  ist futsch.
Bis vor zwei Jahren, als unsere Mutter starb, hat die immer
gezahlt.

Andi F. schrieb:
> daß die seit 30 Jahren etliche Äcker verpachtet
> haben.

Da müßten normalerweise die Pächter von der BG angeschrieben
worden sein, wenn die es vergessen haben. Die Pächter müssen
das ja bezahlen.

Beitrag #7512503 wurde vom Autor gelöscht.
von Oliver S. (oliverso)


Lesenswert?

Musik og F. schrieb:
> Wichtiger ist:
> Bau dir deinen eigenen Schalgwortkatalog.

Im 21. Jahrhundert? Ernsthaft?
Der einzige tiefere Sinn einer elektronische Dokumentenaufbewahrung ist 
doch die Suchfunktion. Sonst kann man das auch gleich lassen.

Oliver

von Carypt C. (carypt)


Lesenswert?

anstatt dateien in immer mehr ordner zu schaufeln, versuche ich ein 
sinnvolles  anfangswort in den dateinamen zu schreiben. anstatt 1 
schreibt man 01 oder 000001, und nicht 11.10.2023  sondern 2023.10.11 
ja aber das wird wohl bekannt sein.
gibt es noch mehr anleitungen dazu ? die oben verlinkte 
bibliotheken-anleitung (beschlagwortung) fand ich gruselig.

: Bearbeitet durch User
von Weingut P. (weinbauer)


Lesenswert?

Ich verwende dafür n Programm namens PDFScanner, das führt auch ne OCR 
durch. Ich mach das hauptsächlich für Rechnungsbelege.
Im Anschluss lass ich PDF2TXT drüber laufen und lass das TXT in ne 
SQL-Datenbank kopieren. Das PDF wird dann in n Archivordner abgelegt.
Das ganze hab ich per Batch automatisiert.
Letztlich wird dann mit den Daten vom Onlinebanking abgeglichen und ne 
HTML erzeugt wo dann für jede Zahlung die entsprechende zugehörige 
Rechnung verlinkt ist.

Klingt kompliziert letztlich ist aber jeder Schritt ab Scan ne Zeile im 
Script, das in Windeseile durchläuft. Auch die Suche nach bestimmten 
PDF-Inhalten (aus dem TXT) geht in der SQL wieselflink

von Weingut P. (weinbauer)


Lesenswert?

Heinz B. schrieb:
> Da müßten normalerweise die Pächter von der BG angeschrieben
> worden sein, wenn die es vergessen haben. Die Pächter müssen
> das ja bezahlen.

Hab Flächen in Pacht, bei Acker sind die Laufzeiten normalerweise kurz, 
wenige Jahre, bei Dauerkulturen mitunter bis 30 Jahre. Wenn sich der 
Verpächter nicht rührt überweise ich die Pacht zu Martini auf das 
abgemachte Konto, selbst ob das nun Erbengemeinschaft ist bekomm ich von 
keinem Amt oder Versicherung oder Nachlassgericht oder sonstwem nicht 
mitgeteilt.
Wenn der Pachtvertrag zum Laufzeitende nicht gekündigt wird verlängert 
der sich automatisch um 1 Jahr zu den vertraglichen Konditionen.

Das einer n Grundstück verkauft das nicht ihm gehört halte ich für 
nahezu ausgeschlossen, da das nur über Notar und Amtsgericht (Grundbuch) 
geht, alles andere ist sowieso nichtig.

von Marci W. (marci_w)


Lesenswert?

Carypt C. schrieb:

> schreibt man 01 oder 000001, und nicht 11.10.2023  sondern 2023.10.11

also wenn schon Datum, dann ISO8601: 2023-10-11 ;-)

ciao

Marci

: Bearbeitet durch User
Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.