Hallo, ich moechte ein Uni-Script (400 Seiten) scannen und danach in Text konvertieren. Das OCR kann ich erst in ein paar Monaten machen aus Zeitmangel. Frage: wenn ich die Scan-Daten in ein verlustbehaftetes Format (*.jpg) konvertiere, habe ich dann schlechtere OCR-Ergebnisse (mehr Fehl-erkennungen)? D.h. sollte man die Scan-Daten z.B. in verlustlosem *.BMP aufbewahren?
Johannes schrieb: > Hallo, > ich moechte ein Uni-Script (400 Seiten) scannen und danach in Text > konvertieren. Das OCR kann ich erst in ein paar Monaten machen aus > Zeitmangel. > > Frage: wenn ich die Scan-Daten in ein verlustbehaftetes Format (*.jpg) > konvertiere, habe ich dann schlechtere OCR-Ergebnisse (mehr > Fehl-erkennungen)? D.h. sollte man die Scan-Daten z.B. in verlustlosem > *.BMP aufbewahren? Warum nicht als Vektordatei... pdf usw.... Gruß, Sven
>Warum nicht als Vektordatei... pdf usw.... > >Gruß, Sven Die Rohdaten eines Scans liegen als Pixel vor. Eine Konversion ohne OCR in PDF bringt nichts, da im Containerformat PDF dann die Grafik gespeichert wuerde und die Dateien noch groesser wuerden. Da ich mir das OCR-Programm noch nicht gekauft habe (Abbys Finereader 10.0), kann ich es nicht ausprobieren.
Nachtrag: Für OCR reicht im Regelfall schwarz/weiss, das lässt sich am besten mit TIFF/Fax4 speichern.
Johannes schrieb: > Hallo, > ich moechte ein Uni-Script (400 Seiten) scannen und danach in Text > konvertieren. Das OCR kann ich erst in ein paar Monaten machen aus > Zeitmangel. > > Frage: wenn ich die Scan-Daten in ein verlustbehaftetes Format (*.jpg) > konvertiere, habe ich dann schlechtere OCR-Ergebnisse (mehr > Fehl-erkennungen)? D.h. sollte man die Scan-Daten z.B. in verlustlosem > *.BMP aufbewahren? In ungünstigen Fällen 400 BMP-Seiten a 40MB= 16 000 MB? Da wir nicht wissen wie gut Dein OCR arbeitet und wie stark Deine jpg komprimiert sind, wird Dir im konkretem Fall nur ein praktischer Versuch helfen. Jedenfalls sind 99% Erkennungsrate: 1 Fehler auf 100 Zeichen! Das ist schlecht. Du solltest rechtzeitig testen.
Johannes schrieb: >>Warum nicht als Vektordatei... pdf usw.... >> >>Gruß, Sven > > Die Rohdaten eines Scans liegen als Pixel vor. schon klar > Eine Konversion ohne OCR in PDF bringt nichts, ist denn bei deinem Scanner nix dabei? > da im Containerformat PDF > dann die Grafik gespeichert wuerde und die Dateien noch groesser > wuerden. na dann viel Spaß mit *.bmp... > Da ich mir das OCR-Programm noch nicht gekauft habe (Abbys Finereader > 10.0), kann ich es nicht ausprobieren. s.o. btw würd ich *.png draus machen.... Gruß, Sven
>>Finereader >Sollte es als Testversion für einige Seiten kostenlos geben. Habe die Version 9.0 schon getestet, eine weitere Test-Version nicht mehr moeglich. Leider habe ich bei 9.0 nicht getestet, wie sich OCR bei *.jpg und *.bmp der gleichen Seite verhaelt.
Die meisten Scanner haben Firmeware Software mit dem Treiber geliefert und haben eine Option OCR. Dann wird die Auflösung und Format durch den Scanner schon Optimiert. .png "Portable Network Grafik"(Alphakanal,Layer,usw) ist was fürs Web und Designer Standard für OCR ist eigentlich .tif ; .tiff .jpg ;.bmp ;.pdf ist auch möglich , es muss nur eine ausgewogenes Verhältniss von Komprimierung-Auflösung-und Fehlerpixel( auf dem Orginaldokument) gewählt werden. Maximale Scanner Auflösung bringt eher einen Nachteil. Dann Sitz man Stunden lang und korregiert Buchstaben, die in Wirklichkeit nur Schmutzpixel oder Schatten sind. 150dpi für Schreibmaschinen Schrift mit 10p Schrifthöhe reicht aus. Die OCR Engien's der Programme sind sehr sehr unterschiedlich. Vor einem Kauf immer Testversion besorgen. Mein Favorit ist OmniPage.
Semi schrieb: > 150dpi für Schreibmaschinen Schrift mit 10p Schrifthöhe reicht aus. Es kommt auf die optische Qualität an. Mir wurden 600dpi geraten um möglichst wenig Fehler zu haben. Wer ohne Erfahrung glaubt in wenigen Minuten alles FEHLERFREI gescannt zu haben ist ein Optimist.
Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.