Kopiere ich manche PDFs in die Zwischenablage und sehe mir den Inhalt dieser an, sehe ich etwas wie el a b i aa r o u n dt oder er wßte ds er heute Wie kann ich PDF-Dateien so umwandeln, daß der kopierte Text dem sichtbaren Text entspricht?
In einem PDF steht der Text nicht mehr unbedingt zusammenhängend drin. Theoretisch kann da jeder Buchstabe für sich stehen, jeweils mit der Angabe an welcher Position bezogen auf den Seiteneckpunkt er steht. Üblicherseise stehen da allerdings eher einzelne Worte oder Absätze. Weiter muss der verwendete Zeichensatz im PDF nicht dem Windowszeichensatz entsprechen. Copy and Paste soll aus diesem Wust jetzt wieder einen Text zusammenbasteln. Das funktioniert halt mal besser und mal schlachter. Abhilfe? Eventuell eine OCR-Software über den Screenshot laufen lassen, eventuell gibt es auch PDF Viewer, die berreren Copy Support bieten.
eventuell garnicht, oder nur näherungsweise. was du auf einem PDF als wort, satz oder dergleiche zu erkennen glaubst sind nichts als objekte die auf einer seite plaziert wurden. das können ganze wort- oder satz-strings sein, oder auch "hintereinander" platzierte buchstaben mit jeweils eigenen x/y-koodinaten. anstatt copy&paste könntest du versuchen den text mit einem tool zu extrahieren. ich verwende z.b. iText (java/c#) um PDF's zu manipulieren. textextraktion sieht dann ungefähr so aus (kurz gegoogelt): https://stackoverflow.com/questions/8821107/pdf-text-extraction-using-itext
Kurt Kaminski schrieb: > Wie kann ich PDF-Dateien so umwandeln, daß der kopierte Text dem > sichtbaren Text entspricht? Sind das gescannte pdfs, z.B. alte Zeitschriften oder Service Manuals? Solche Scans liegen zunächst als TIF-Dateien vor und werden über Adobe Acrobat in pdf gewandelt. Dabei erfolgt eine automatische Texterkennung (OCR), dieser erkannte Text liegt unsichtbar hinter der Bilddatei. Beim Kopieren nimmst Du eben diesen Text mit. Und der OCR ist grottenschlecht.
https://wiki.ubuntuusers.de/gscan2pdf/ das ist ähnlich dem genannten Adobe-Programm. Funktioniert auch eher schlecht und benutzt tesseract als OCR-Software.
soul e. schrieb: > Sind das gescannte pdfs, z.B. alte Zeitschriften oder Service Manuals? Solche PDFs entstehen sehr leicht mit LaTeX, wenn sie über den "alten" Weg mit Postscript erzeugt wurden und nicht extra für Online-Nutzung, sondern für den Ausdruck optimiert sind. Hintergrund ist der, daß tatsächlich einzelne Buchstabengruppen, die kleiner als ein Wort sind, einzeln positioniert sind, um das Kerning perfekt hinzubekommen. Wird das Package "hyperref" geladen, sind die erzeugten Dokumente automatische richtig fürs Web aufbereitet (und der Ausdruck [siehe Kerning]) leicht schlechter.
In solchen Fällen konnte ich das Problem mit Libreoffice meistens lösen. PDF in Libreoffice öffnen, Text kopieren und dann in eine neue leere Textdatei einfügen.
Es gibt einen ganzen Sack voll Programme, die die Texte oder auch Bilder, aus einem PDF extrahieren können. Aber keines davon ist hellseherisch veranlagt. Also wie schon "Der Andere" angedeutet hat, kann man einen Text auch bunt gemischt schreiben und dann die "Buchstaben" so platzieren, dass sie wie Wörter aussehen. Auch rund um die, ach so tollen 16-Bit, Zeichensätze gibt es einige versteckte Überraschungen. Nach dem Motto: Es sieht zwar nach ASCII aus, ist es aber nicht. Last, but not least, kannst Du auch eine Grafik erwischen, die wie Text aussieht.
Sebastian S. schrieb: > Aber keines davon ist hellseherisch veranlagt. Naja, es gibt schon ein paar einfache Merkmale, woran man erkennt, woher der Zwischenablagen-Müll kommt. Wenn vor allen Dingen die Ligaturen (fl, fi, ff, ij ...) fehlen, ist des das obengenannte Postscript-Problem.
Schon lange gibt es OCR-Software, die direkt auch PDF-Dateien verdauen kann, der "FineReader" von Abbyy ist ein Beispiel dafür.
> Kopiere ich manche PDFs in die Zwischenablage und sehe mir den Inhalt > dieser an, sehe ich etwas wie > el a b i aa r o u n dt > oder > er wßte ds er heute Diese PDFs sind nicht korrupt sondern von dir nur unverstanden. Im PDF steht: Zeichne das Objekt 'el' an die Position x1,y1, zeichne das Objekt 'a' an die Position x2,y2 ... Die Position ergibt sich aus typographischen Erwaegungen. Um eine Textsuche zu ermoeglichen, koennen PDF-Dateien auch eine 'lesbare' Interpretation dieser Daten in einem ueblichen Zeichensatz enthalten. Ein PDF ohne diese Zusatzinformationen ist aber nicht korrupt.
Und wie bekommt man nun wirklich korrupte PDF-Dateien wieder anzeig- oder lesbar? Da gibt es Onlineseiten die das angeblich können, nur wenn ich die Datei nicht mal geöffnet bekomme, wegen glaube ich CRC-Fehler, hat die sich wohl auf der HDD etwas verhaspelt? Also als Datei beschädigt?
PDF besteht aus einem Headerteil mit Indexverweisen auf die folgenden Seiten. Die Seiten sind dann einzeln wiederum für sich. Am Ende kommen nochmal Definitionen. Wenn mittendrin ein paar Seiten defekt sind, sollte sich der Rest weitgehend restaurieren lassen. Bei echtem Postscript sieht es dagegen ziemlich mau aus. Ein passendes Tool kenn ich nicht. Wirds aber sicher geben. Solange es noch druckbar ist, kann man es einfach wieder einscannen.
Eine Zeichnung eines Architekturbueros eines Fabrikgebaeudes mit ca. 70 Layern bringt den aktuellen Acrobat als auch den Reader beim Drucken in die Knie. Ein steinalter Foxit-Reader 3.01 aus dem Jahr 2008 schafft es aber trotzdem :-) Vielleicht sollte die Firma mal einige Justierungen an ihren Produkten vornehmen...
Abdul K. schrieb: > PDF besteht aus einem Headerteil mit Indexverweisen auf die folgenden > Seiten. Die Seiten sind dann einzeln wiederum für sich. Am Ende kommen > nochmal Definitionen. Wenn mittendrin ein paar Seiten defekt sind, > sollte sich der Rest weitgehend restaurieren lassen. > Bei echtem Postscript sieht es dagegen ziemlich mau aus. > Ein passendes Tool kenn ich nicht. Wirds aber sicher geben. > > > Solange es noch druckbar ist, kann man es einfach wieder einscannen. War deine ausführliche Erklärung mir geschuldet? Es handelte sich aber nur um eine relativ einfache A4 Seite. Ein Paketschein von DHL ließ sich nicht mehr einlesen / öffnen. Denn da steht dann auch die Sendungs-ID drauf, so ein Mist aber auch.
Kurt Kaminski schrieb: > Kopiere ich manche PDFs in die Zwischenablage und sehe mir den Inhalt > dieser an, sehe ich etwas wie > > el a b i aa r o u n dt > > oder > > er wßte ds er heute > > Wie kann ich PDF-Dateien so umwandeln, daß der kopierte Text dem > sichtbaren Text entspricht? So eine Zahlen- und Buchstabensalat hatte ich auch erst kürzlich mit einem PDF-Viewer. Über das Firefox-Plugin sah der Trext dann aber wirklich sauber und gut aus.
Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.