Korrupte PDF-Dateien kurieren

von Kurt Kaminski (Gast)

03.11.2017 11:31

Lesenswert?

•

Kopiere ich manche PDFs in die Zwischenablage und sehe mir den Inhalt 
dieser an, sehe ich etwas wie

el a b i aa r o u n dt

oder

er wßte ds er heute

Wie kann ich PDF-Dateien so umwandeln, daß der kopierte Text dem 
sichtbaren Text entspricht?

Beitrag melden Bearbeiten Thread verschieben Thread sperren Anmeldepflicht aktivieren Anpinnen Thread löschen Thread mit anderem zusammenführen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Korrupte PDF-Dateien kurieren

von Der Andere (Gast)

03.11.2017 11:38

Lesenswert?

•

▲
▼

In einem PDF steht der Text nicht mehr unbedingt zusammenhängend drin. 
Theoretisch kann da jeder Buchstabe für sich stehen, jeweils mit der 
Angabe an welcher Position bezogen auf den Seiteneckpunkt er steht. 
Üblicherseise stehen da allerdings eher einzelne Worte oder Absätze.
Weiter muss der verwendete Zeichensatz im PDF nicht dem 
Windowszeichensatz entsprechen.

Copy and Paste soll aus diesem Wust jetzt wieder einen Text 
zusammenbasteln. Das funktioniert halt mal besser und mal schlachter.

Abhilfe?

Eventuell eine OCR-Software über den Screenshot laufen lassen, eventuell 
gibt es auch PDF Viewer, die berreren Copy Support bieten.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Korrupte PDF-Dateien kurieren

von Der Andere (Gast)

03.11.2017 11:38

Lesenswert?

•

▲
▼

Der Andere schrieb:
> berreren

soll natürlich "besseren" heissen, sorry.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Korrupte PDF-Dateien kurieren

von c. m. (Gast)

03.11.2017 11:42

Lesenswert?

•

▲
▼

eventuell garnicht, oder nur näherungsweise.
was du auf einem PDF als wort, satz oder dergleiche zu erkennen glaubst 
sind nichts als objekte die auf einer seite plaziert wurden.
das können ganze wort- oder satz-strings sein, oder auch 
"hintereinander" platzierte buchstaben mit jeweils eigenen 
x/y-koodinaten.

anstatt copy&paste könntest du versuchen den text mit einem tool zu 
extrahieren. ich verwende z.b. iText (java/c#) um PDF's zu manipulieren.
textextraktion sieht dann ungefähr so aus (kurz gegoogelt):
https://stackoverflow.com/questions/8821107/pdf-text-extraction-using-itext

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Korrupte PDF-Dateien kurieren

von Soul E. (Gast)

03.11.2017 12:54

Lesenswert?

•

▲
▼

Kurt Kaminski schrieb:

> Wie kann ich PDF-Dateien so umwandeln, daß der kopierte Text dem
> sichtbaren Text entspricht?

Sind das gescannte pdfs, z.B. alte Zeitschriften oder Service Manuals? 
Solche Scans liegen zunächst als TIF-Dateien vor und werden über Adobe 
Acrobat in pdf gewandelt. Dabei erfolgt eine automatische Texterkennung 
(OCR), dieser erkannte Text liegt unsichtbar hinter der Bilddatei. Beim 
Kopieren nimmst Du eben diesen Text mit. Und der OCR ist 
grottenschlecht.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Korrupte PDF-Dateien kurieren

von Christoph db1uq K. (christoph_kessler)

03.11.2017 13:18

Lesenswert?

•

▲
▼

https://wiki.ubuntuusers.de/gscan2pdf/
das ist ähnlich dem genannten Adobe-Programm. Funktioniert auch eher 
schlecht und benutzt tesseract als OCR-Software.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Korrupte PDF-Dateien kurieren

von Walter T. (nicolas)

03.11.2017 13:26

Lesenswert?

•

▲
▼

soul e. schrieb:
> Sind das gescannte pdfs, z.B. alte Zeitschriften oder Service Manuals?

Solche PDFs entstehen sehr leicht mit LaTeX, wenn sie über den "alten" 
Weg mit Postscript erzeugt wurden und nicht extra für Online-Nutzung, 
sondern für den Ausdruck optimiert sind.

Hintergrund ist der, daß tatsächlich einzelne Buchstabengruppen, die 
kleiner als ein Wort sind, einzeln positioniert sind, um das Kerning 
perfekt hinzubekommen. Wird das Package "hyperref" geladen, sind die 
erzeugten Dokumente automatische richtig fürs Web aufbereitet (und der 
Ausdruck [siehe Kerning]) leicht schlechter.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Korrupte PDF-Dateien kurieren

von Stefan F. (Gast)

03.11.2017 14:01

Lesenswert?

•

▲
▼

In solchen Fällen konnte ich das Problem mit Libreoffice meistens lösen. 
PDF in Libreoffice öffnen, Text kopieren und dann in eine neue leere 
Textdatei einfügen.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Korrupte PDF-Dateien kurieren

von Sebastian S. (amateur)

03.11.2017 14:26

Lesenswert?

•

▲
▼

Es gibt einen ganzen Sack voll Programme, die die Texte oder auch 
Bilder, aus einem PDF extrahieren können.

Aber keines davon ist hellseherisch veranlagt.
Also wie schon "Der Andere" angedeutet hat, kann man einen Text auch 
bunt gemischt schreiben und dann die "Buchstaben" so platzieren, dass 
sie wie Wörter aussehen.
Auch rund um die, ach so tollen 16-Bit, Zeichensätze gibt es einige 
versteckte Überraschungen. Nach dem Motto: Es sieht zwar nach ASCII aus, 
ist es aber nicht.
Last, but not least, kannst Du auch eine Grafik erwischen, die wie Text 
aussieht.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Korrupte PDF-Dateien kurieren

von Walter T. (nicolas)

03.11.2017 14:50

Lesenswert?

•

▲
▼

Sebastian S. schrieb:
> Aber keines davon ist hellseherisch veranlagt.

Naja, es gibt schon ein paar einfache Merkmale, woran man erkennt, woher 
der Zwischenablagen-Müll kommt. Wenn vor allen Dingen die Ligaturen (fl, 
fi, ff, ij ...) fehlen, ist des das obengenannte Postscript-Problem.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Korrupte PDF-Dateien kurieren

von Rufus Τ. F. (rufus)

05.11.2017 15:53

Lesenswert?

•

▲
▼

Schon lange gibt es OCR-Software, die direkt auch PDF-Dateien verdauen 
kann, der "FineReader" von Abbyy ist ein Beispiel dafür.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Korrupte PDF-Dateien kurieren

von (º°)·´¯`·.¸¸.·´¯`·.¸¸.·´¯`·.¸¸.·´¯`·.¸¸.·´¯`·.¸¸.· (Gast)

05.11.2017 17:56

Lesenswert?

•

▲
▼

> Kopiere ich manche PDFs in die Zwischenablage und sehe mir den Inhalt
> dieser an, sehe ich etwas wie
> el a b i aa r o u n dt
> oder
> er wßte ds er heute

Diese PDFs sind nicht korrupt sondern von dir nur unverstanden.

Im PDF steht: Zeichne das Objekt 'el' an die Position x1,y1,
zeichne das Objekt 'a' an die Position x2,y2 ...
Die Position ergibt sich aus typographischen Erwaegungen.

Um eine Textsuche zu ermoeglichen, koennen PDF-Dateien
auch eine 'lesbare' Interpretation dieser Daten in einem
ueblichen Zeichensatz enthalten.

Ein PDF ohne diese Zusatzinformationen ist aber nicht korrupt.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Korrupte PDF-Dateien kurieren

von Elo (Gast)

05.11.2017 22:39

Lesenswert?

•

▲
▼

Und wie bekommt man nun wirklich korrupte PDF-Dateien wieder anzeig- 
oder lesbar?
Da gibt es Onlineseiten die das angeblich können, nur wenn ich die Datei 
nicht mal geöffnet bekomme, wegen glaube ich CRC-Fehler, hat die sich 
wohl auf der HDD etwas verhaspelt?
Also als Datei beschädigt?

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Korrupte PDF-Dateien kurieren

von Abdul K. (ehydra)

05.11.2017 23:15

Lesenswert?

•

▲
▼

PDF besteht aus einem Headerteil mit Indexverweisen auf die folgenden 
Seiten. Die Seiten sind dann einzeln wiederum für sich. Am Ende kommen 
nochmal Definitionen. Wenn mittendrin ein paar Seiten defekt sind, 
sollte sich der Rest weitgehend restaurieren lassen.
Bei echtem Postscript sieht es dagegen ziemlich mau aus.
Ein passendes Tool kenn ich nicht. Wirds aber sicher geben.


Solange es noch druckbar ist, kann man es einfach wieder einscannen.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Korrupte PDF-Dateien kurieren

von (º°)·´¯`·.¸¸.·´¯`·.¸¸.·´¯`·.¸¸.·´¯`·.¸¸.·´¯`·.¸¸.· (Gast)

05.11.2017 23:33

Lesenswert?

•

▲
▼

Eine Zeichnung eines Architekturbueros eines Fabrikgebaeudes mit
ca. 70 Layern bringt den aktuellen Acrobat als auch den Reader
beim Drucken in die Knie.

Ein steinalter Foxit-Reader 3.01 aus dem Jahr 2008 schafft es aber
trotzdem :-)

Vielleicht sollte die Firma mal einige Justierungen an ihren
Produkten vornehmen...

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Korrupte PDF-Dateien kurieren

von Elo (Gast)

07.11.2017 19:53

Lesenswert?

•

▲
▼

Abdul K. schrieb:
> PDF besteht aus einem Headerteil mit Indexverweisen auf die folgenden
> Seiten. Die Seiten sind dann einzeln wiederum für sich. Am Ende kommen
> nochmal Definitionen. Wenn mittendrin ein paar Seiten defekt sind,
> sollte sich der Rest weitgehend restaurieren lassen.
> Bei echtem Postscript sieht es dagegen ziemlich mau aus.
> Ein passendes Tool kenn ich nicht. Wirds aber sicher geben.
>
>
> Solange es noch druckbar ist, kann man es einfach wieder einscannen.

War deine ausführliche Erklärung mir geschuldet?
Es handelte sich aber nur um eine relativ einfache A4 Seite. Ein 
Paketschein von DHL ließ sich nicht mehr einlesen / öffnen. Denn da 
steht dann auch die Sendungs-ID drauf, so ein Mist aber auch.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Korrupte PDF-Dateien kurieren

von Elo (Gast)

07.11.2017 19:55

Lesenswert?

•

▲
▼

Kurt Kaminski schrieb:
> Kopiere ich manche PDFs in die Zwischenablage und sehe mir den Inhalt
> dieser an, sehe ich etwas wie
>
> el a b i aa r o u n dt
>
> oder
>
> er wßte ds er heute
>
> Wie kann ich PDF-Dateien so umwandeln, daß der kopierte Text dem
> sichtbaren Text entspricht?

So eine Zahlen- und Buchstabensalat hatte ich auch erst kürzlich mit 
einem PDF-Viewer.
Über das Firefox-Plugin sah der Trext dann aber wirklich sauber und gut 
aus.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Forum: PC Hard- und Software Korrupte PDF-Dateien kurieren