Forum: PC Hard- und Software pdf OCR und Konvertierungen


von Paul (Gast)


Lesenswert?

Guten Morgen,

vielleicht kann man mir hier weiter helfen?

Ich habe einen Scan eines Artikels gemacht, der jetzt als pdf auf meinem 
PC (Windows 10) liegt. Diese pdf-Datei enthält den mehrseitigen Artikel 
als Grafik. Weil ich den Text haben möchte, habe ich auf diverse Seiten 
im Internet Online-OCR Umfwandlungen bemüht. Die Ergebnisse sind meist 
ganz gut.

Die ausgegebene Datei war jeweils wieder ein pdf-Dokument. Wenn ich das 
öffne, kann ich den Text auch tatsächlich markieren und in die 
Zwischenablage kopieren.

Jetzt das Problem:

Statt der pdf-Datei hätte ich lieber eine Word-Datei, die ich weiter 
bearbeiten kann. Natürlich könnte ich jetzt Abschnitt für Abschnitt 
rüber kopieren. Das wäre aber umständlich und nur der letzte Ausweg.

Also habe ich wieder verschiedene Online-Dienste zur Konvertierung des 
OCR-pdf's verwendet. Die ausgegbenen Wort-Dateien waren aber allesamt 
entweder leer oder enthielten wieder Grafik, also keinen durchsuchbaren 
Text.

Frage:

Wo ist der durchsuchbare und kopierbare Text geblieben? Wie bekomme ich 
eine wirkliche Textdatei, sei es als pdf oder Word-Dokument?

Jetzt hoffe ich, so etwas hat schon mal jemand gemacht und kann mir 
helfen.

Grüße
Paul

von michael_ (Gast)


Lesenswert?

Versuch mal mit Libre-Office.

von doschi (Gast)


Lesenswert?

Hast Du schon Tesseract OCR  ausprobiert?
https://github.com/tesseract-ocr/tesseract
(für Windows: https://github.com/UB-Mannheim/tesseract/wiki )

von Paul (Gast)


Lesenswert?

Das mit Tesseract hatte ich schon vor einiger Zeit versucht, bin aber an 
der Installation gescheitert.

Kann Libre-Office pdf importieren und als Wort exportieren? Dann würde 
ich das mal versuchen.

von Ingo W. (uebrig) Benutzerseite


Lesenswert?

Paul schrieb:
> Kann Libre-Office pdf importieren und als Wort exportieren? Dann würde
> ich das mal versuchen.

Das Problem bei PDF ist, dass es dort keinen Textfluss gibt (Wörter von 
links nach rechts, dann in der nächsten Zeile weiter...).
Wenn eine Tabelle in PDF geschrieben wird, kann dies günstigenfalls wie 
obenbeschrieben, aber auch spaltenweise oder kreuz und quer passieren. 
Das sieht man dann auch, wenn man in einer PDF-Tabelle mal versucht Text 
zu markieren.

LibreOffice importiert die PDF seitenweise in Draw, dort ist dann jedes 
Wort ein Textfeld auf der Seite. Wenn man das in die Textverarbeitung 
übernehmen würde, würden es auch Textfelder bleiben.

Eigentlich dürfte es ja keine soo große Herausforderung sein, die 
einzelnen Textfelder anhand ihrer Koordinaten zu Fließtext, oder einer 
Tabelle zusammenzusortieren.
Vielleicht versuche ich mich mal dran, die ODF-Dateien lassen sich ja 
gut verarbeiten.

Diese Herausforderung wird daher bei der Erkennung, mehr oder weniger 
gut, vom OCR (Tesseract) übernommen.

von Oliver S. (oliverso)


Lesenswert?

https://www.xpdfreader.com/pdftohtml-man.html

oder ähnliche Tools. Reiner Text als Output geht ganz gut, mit 
Formatierung wird’s nicht so toll.

Ich würde aber auch tesseract nehmen.


Oliver

von Schlaumaier (Gast)


Lesenswert?

Man kann sich das Leben auch schwer machen.

FOXIT-Reader installieren (ist eh schneller aus Adobe).
PDF laden
Datei -> speichern unter -> TXT-File auswählen. Speichern Freuen.

Alternativ.

PDF LADEN.  STRG-A drücken dann (mehrmals) STRV-C  auf Word wechseln.
STRG-V drücken.  Auch Fertig.

Und nun noch beten, das der Artikel keine Spalten hat. Sonst muss man 
eine OCR über einen Text setzen und eine Block-Bildung vorher malen. ;)

von Thomas (kosmos)


Lesenswert?

Google Docs macht OCR, wandle damit öfter mal schlechte Kopien der 
Schule für die Kindern um, danach kannst du den Text einfach markieren 
in die Textverarbeitung einfügen und gut.

von eProfi (Gast)


Lesenswert?

Jetzt habt ihr mich neugierig gemacht, OCR wollte ich schon immer mal 
probieren.  Tesseract heruntergeladen, installiert,
https://github.com/tesseract-ocr/tessdata/blob/main/deu.traineddata 
downgeloaded und nach C:\Program Files (x86)\Tesseract-OCR\tessdata 
kopiert.

Dann der Aufruf in der Tesseract-Konsole:
tesseract c:\test\test.png test -l deu
Das default-dir, wohin nach einigen Sekunden die Datei test.txt gespielt 
wird, ist
C:\Users\xxx\AppData\Local\VirtualStore\Program Files 
(x86)\Tesseract-OCR

Super Erkennungsrate! Ich bin baff.
Es kann allerdings keine PDF lesen, die muss man vorher mit ghostscript 
in ein Bildformat umwandeln.

Unser Schlaumeier schrieb:
> Datei -> speichern unter -> TXT-File auswählen. Speichern Freuen.
Funktioniert das auch, wenn der "Text" im PDF ein Bild ist? Darum geht 
es doch hier.

von Frank E. (Firma: Q3) (qualidat)


Lesenswert?

Naja. Tesseract ist eine pure Zeichenerkennung. Gut geeignet um z.B. 
Zähler abzulesen oder KFZ-Nummern zu scannen.

Mit praxistauglichem OCR im Sinne von (viele) Dokumente scannen und 
"durchsuchbar" machen bzw. Text-Extraktion hat man auf diesem Level aber 
nur wenig Freude.

Da gehört noch eine datenbank- oder gar KI-basierte Semantik hinten 
dran, die dann solch gern gemachten Erkennungsfehler wie z.B. "rn" wird 
zu "m" oder aus "Ball" wird "Ba11" behebt, sonst wirst du wahnsinnig ...

Wir verwenden in der Firma z.B. "Readiris" und sind rel. zufrieden. In 
einer ähnlichen Liga spielen Softwares wie "FineReader" oder "OmniPage". 
Wie gesagt, auf die intelligente Nachbereitung kommt es ganz 
entscheidend an.

Die oft in besseren Kopierern/Scanneren (z.B. von Toshiba oder Xerox) 
eingebauten Erkennungen sind dagegen zielmich lausig.

Der Gag, den David Kriesel beim CCC beschreibt ist zum Glück inzwischen 
auch vorbei. War aber sehr unterhaltsam, obwohl es dort eigentlich nach 
außen hin nur ums Kopieren geht:

https://www.youtube.com/watch?v=7FeqF1-Z1g0

: Bearbeitet durch User
von oszi40 (Gast)


Lesenswert?

Frank E. schrieb:
> Wie gesagt, auf die intelligente Nachbereitung kommt es ganz
> entscheidend an.

Das klappt nur so gut, wie das benutzte Wörterbuch ist. Es ist ein 
himmelweiter Unterschied, ob Du bekannte Weihnachtsmärchen oder 
Stücklisten bearbeiten möchtest.

von Schlaumaier (Gast)


Lesenswert?

eProfi schrieb:
> Funktioniert das auch, wenn der "Text" im PDF ein Bild ist? Darum geht
> es doch hier.

NEIN und darum geht es nicht lt. TO.

Zitat :

Paul schrieb:
> Weil ich den Text haben möchte, habe ich auf diverse Seiten
> im Internet Online-OCR Umfwandlungen bemüht. Die Ergebnisse sind meist
> ganz gut.
>
> Die ausgegebene Datei war jeweils wieder ein pdf-Dokument. Wenn ich das
> öffne, kann ich den Text auch tatsächlich markieren und in die
> Zwischenablage kopieren.
>
> Jetzt das Problem:
>
> Statt der pdf-Datei hätte ich lieber eine Word-Datei, die ich weiter
> bearbeiten kann. Natürlich könnte ich jetzt Abschnitt für Abschnitt
> rüber kopieren. Das wäre aber umständlich und nur der letzte Ausweg.


Er hat also eine PDF mit echten Buchstaben drin zurück bekommen.  Dazu 
ist meine Anleitung richtig.

JEDE mir bekannte OCR liefert automatisch Text (TXT) Dateien ab.

von Frank E. (Firma: Q3) (qualidat)


Lesenswert?

Mal ordnen:

Text-Extraktion, um an den enthaltenen Text zu gelangen, z.B. um daraus 
ein neues Textdokument zu erhalten.

- aus PDF mit bereits enthaltenem Text. PDFs, die aus Layout-Programmen 
oder Texteditoren exportiert werden, enthalten bereits lesbare 
Text-Objekte. Hier braucht man kein OCR, sondern nur passende Werkzeuge 
wie z.B. Apache PDFBox oder die DynaPDF-Lib bzw. Prgrammen, die sowas 
intus haben, um des Textes habhaft zu werden

- aus PDF, das aus einem Scan stammt. Nur weil z.B. eine 
Scanner-Software ein gescanntes Bild eines Textdokumentes in einen 
PDF-Container packt, enthält es noch lange keinen Text. In diesem Falle 
muss das Bild-Objekt extrahiert oder gleich das gesamte PDF neu 
gerendert und dann dem OCR-Prozess zugeführt werden

- Gleiches gilt für Scan-Softwares, die andere Bildformate liefern. Wenn 
man weiss, dass man anschließend OCR machen will, ist evtl. JPEG nicht 
unbedingt optimal (besser TIFF oder PNG), wegen dessen Problemen mit 
scharfen Kanten

Durchsuchbare PDF erstellen

In diesem Falle soll aus PDF-Dokumenten, die bisher nur das Bild eines 
Textdokuments enzhalten, eines mit (von Software) durchsuchbaren Texten 
erstellt werden, z.B. für die Verschlagwortung in 
Dokumenten-Datenbanken.

In diesem Falle muss die Software gut mit PDF umgehen können, denn es 
wird in dem vorhandenen PDF zusätzlich eine Ebene "eingezogen", die den 
per OCR gefundenen Text enthält. Dieser ist entweder transparent (stört 
also beim Betrachten des Dokuments nicht) oder liegt hinter dem 
Bildobjekt ...

Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.