Forum: PC Hard- und Software PDF war gestern, morgen ist DJVU!


von Der G. (Firma: schlechthin) (gastgeber)


Lesenswert?

Das DJVU Dateiformat ist unglaublich... klein, man bekommt riesige PDF 
Dokumente in Gigabytegröße in einstellige MBgröße!! Entwickelt von AT&T 
und nun Opensource. Wieso gibt es noch PDF?

Mit djvulibre bzw. cjb2 oder minidjvu kann man diese Dokumente aus pbm 
Bildern erstellen. Für die Textebene kommt ocrmypdf zum Einsatz. 
Benötigte Programme:
convert
ocrmypdf
pdf2djvu
djvused
djvm

Damit bekommt man professionelle Ergebnisse hin, wenn man durch das 
ganze bash programming durchsteigt. So gut wie das ist sollte es eine 
einfache gui Möglichkeit geben.

: Bearbeitet durch User
von Der andere Opa aus der Muppets Show (Gast)


Lesenswert?

Der G. schrieb:
> Wieso gibt es noch PDF?

Damit Du hier wieder einen sinnlosen Thread aufmachen kannst, so sinnlos 
wie fast alles was Du hier postest.


Der G. schrieb:
> ..man bekommt riesige PDF
> Dokumente in Gigabytegröße in einstellige MBgröße!!

Beispiel? Aber mit Bildern!

von Papierkorb (Gast)


Lesenswert?

Letzte Version ist von 2005 -> PLONK

von zoink (Gast)


Lesenswert?

Google findet 3x mehr Einträge zu "DJVU to PDF" als zu "PDF to DJVU".
Die Welt scheint PDF zu wollen.

von MaWin (Gast)


Lesenswert?

Der G. schrieb:
> Wieso gibt es noch PDF?

Nennt man Standard.

Klein spielt keine Rolle mehr.

PDF kann auch eine Menge mehr, obwohl man sich auf PDF/A beschränken 
sollte.

DJVU ist tot, schon seit 20 Jahren.

von Gerd E. (robberknight)


Lesenswert?

Dir ist schon klar daß DJVU ein Rasterformat ist?

Das ist was komplett anderes als das Vektorformat PDF. In ein PDF kannst 
Du ohne Qualitätsverlust beliebig reinzoomen, ausdrucken und anzeigen in 
der maximalen Auflösung Deines Geräts. Bei Rasterformaten kommst Du 
nicht über die ursprüngliche Auflösung hinaus ohne Pixelbrei zu 
bekommen.

So Dinge wie Text erkennen, Text per Copy&Paste rauskopieren etc. gehen 
bei einem Rasterformat auch nicht, da das keine Buchstaben kennt sondern 
einfach nur Pixel.

Dem DJVU fehlen also ne ganze Menge an Möglichkeiten im Vergleich zu 
PDF.

von LOL (Gast)


Lesenswert?

Die Kompressionsarten, die DJVU kann, kann PDF mittlerweile so ähnlich 
auch.
Stichworte MMR und JBIG2.
Es gibt nur keine (mir bekannten) freien Tools, die Scanns so 
nachbearbeiten, das nicht nur ein einfaches olles JPEG gespeichert wird. 
Xerox-Laser MFC können das aber z.B., die hatten da mal ein Problem 
damit (vertauschte Zahlen/Buchstaben) ;-)

DJVU ist mir eigentlich nur in der Kombination Linux und gescannte 
Literatur bekannt...

von Frank E. (Firma: Q3) (qualidat)


Lesenswert?

Gerd E. schrieb:
> Dir ist schon klar daß DJVU ein Rasterformat ist?
>
> Das ist was komplett anderes als das Vektorformat PDF ...

Krümelkack: PDF ist kein "Vektorformat", sondern ein objektorientiertes 
Containerformat, das u.a. AUCH Vektorobjekte enthalten KANN (neben ganz 
viel anderem, wie Rasterdaten, Textdaten, Audio, Video und Programmcode 
in Javascript)

von c-hater (Gast)


Lesenswert?

Frank E. schrieb:

> Krümelkack: PDF ist kein "Vektorformat", sondern ein objektorientiertes
> Containerformat, das u.a. AUCH Vektorobjekte enthalten KANN (neben ganz
> viel anderem, wie Rasterdaten, Textdaten, Audio, Video und Programmcode
> in Javascript)

Nix Krümelkack. Das Verständnis, zwischen Container und Inhalten des 
Containers unterscheiden zu können, geht dem TO offensichtlich 
vollkommen ab.

Also: entweder ein Troll oder ein Idiot. Ich würde auf Troll tippen.

von Εrnst B. (ernst)


Angehängte Dateien:

Lesenswert?

Wenn Zwei sich streiten, freut sich der Dritte. Hier: Postscript.

von Lesender (Gast)


Lesenswert?

Ganz üble Sache (im Prinzip schon immer, heutzutage natürlich 
besonders), alleine schon wegen der Rastergrafik.
Allerdings sind auch EPUB, AZW, MOBI & Co. für Fachliteratur der reinste 
Müll. Die Formatierung ist vielleicht in einem von 100 E-Books - im 
Vergleich mit den gedruckten Pendants - nicht völlig missraten. Und 
damit meine ich E-Books direkt von den Verlagen, nicht irgendwelches 
illegale Zeug. Ob es nun an diesen Formaten oder der Unfähigkeit der 
Ersteller liegt (ich vermute eine Kombination), ist letztlich egal.
PDF ist z. Zt. das einzige erträgliche Format zur Weitergabe komplex 
formatierter Inhalte. Und dass mir keiner mit PostScript um die Ecke 
kommt. ;)

von Der G. (Firma: schlechthin) (gastgeber)


Lesenswert?

Genau, djvu (cjb2) nimmt man für bitonale gescannte Bilddateien von auf 
Papier gedruckten Textdokumenten. Die Dateien werden winzig, und man 
kann sie genau wie PDF mit einer Textlayer hinter dem Bild versehen, so 
dass man darin suchen kann.

Für Dinge mit Grafiken in Graustufen oder in Farben ist Lizardtechs 
DjvuSolo genial, kann man auch genauso für das bitonale Zeug hernehmen, 
ist sogar am einfachsten. Ebenso cuminas document express ist auch 
geeignet.

Didjvu verstaubt leider, ist eine Alternative zu den obrigen beiden.

Einfach ausprobieren und staunen.

: Bearbeitet durch User
von oernithologe (Gast)


Lesenswert?

PDF beinhaltet auch Javascript und sonstigen aktiven Muell.

Es gab eine Zeit, da jeder versuchte, sein "PDF" mit der gerade
verfuegbaren letzten Version zu erzeugen.
Was fuer die meissten dann die A.schkarte war.
Das ist mittlerweile alles vorbei.

Wenn es ein Buch/Artikel/... als DJVU gibt, lese ich das halt
in dem Format. Warum auch nicht?

Was die Verlage heute als Ebook anbieten, ist wirklicher Schrott.
Das ist naemlich das, was die (dummen und ahnungslosen) Autoren
abliefern.
Wo frueher noch eine richtige Illustration/Zeichnung war,
reicht heute JPG-Pixelmatsch.
Selbst bei, eigentlich harmlosen Tabellen, sind die Autoren
scheinbar zu doof, eine Tabelle zu setzen.
Statt dessen, richtig wieder Pixelmatsch.
Fuer solchen Dreck sollte man von den Verlagen sein Geld
zurueckverlangen.

von Der andere Opa aus der Muppets Show (Gast)


Lesenswert?

Der G. schrieb:
> Einfach ausprobieren und staunen.

Wo bleibt der Beweis?

Der andere Opa aus der Muppets Show schrieb:
> Der G. schrieb:
>> ..man bekommt riesige PDF
>> Dokumente in Gigabytegröße in einstellige MBgröße!!
>
> Beispiel? Aber mit Bildern!

Ein PDF-Dokument in Gigabytegröße mit Text, Grafiken und 
Bildern..komprimiert auf <1Mb. Lass mal sehen. Oder doch nur dummes 
Gerede?

von oernithologe (Gast)


Lesenswert?

> Ein PDF-Dokument in Gigabytegröße mit Text, Grafiken und
> Bildern..komprimiert auf <1Mb.

Es gibt vom Elektorverlag z.B. ein DSP-Buch. Ca. 100 MB gross.
Da wird man halt Tabellen, Zeichnungen etc. als  weitgehend
unkomprimierte Grafik vorfinden.
Aber 1 MB waere auch mit DJVI sportlich.

Die ueber 100000 Seiten des M$-Dokuments zum W2K3-Server
wird auch DJVU nicht kleiner rechnen koennen.
Im Orginal > 150 MB.

von Egon D. (Gast)


Angehängte Dateien:

Lesenswert?

Gerd E. schrieb:

> Dir ist schon klar daß DJVU ein Rasterformat ist?

Hmm. Und?

PNG ist auch ein Rasterformat. Und nun betrachte das
beigefügte Bild...

Quelle ist das Lehrbuch "Optik" von Heinz Haferkorn;
gezeigt ist die Seite 50. Der zugehörige Originalscan
wurde mit 600dpi angefertigt (8bit-Graustufen) und
nimmt 20MByte ein.
Angehängt ist eine Arbeitskopie mit 300dpi und
8 Graustufen (= 3 Bit), Dateigröße knapp 180kByte.


> Bei Rasterformaten kommst Du nicht über die
> ursprüngliche Auflösung hinaus ohne Pixelbrei zu
> bekommen.

Muss man ja auch nicht. 600dpi gibt Blinden-und-
Sehschwachen-Schrift; 300dpi ist (auf meinen 100dpi-
Monitoren) mehr als ausreichend.


> So Dinge wie Text erkennen, Text per Copy&Paste
> rauskopieren etc. gehen bei einem Rasterformat auch
> nicht, da das keine Buchstaben kennt sondern einfach
> nur Pixel.

Das stimmt im Prinzip -- aber der Hauptnutzen eines
digitalisierten Buches ist für mich der, dass ich es
DA HABE , wenn ich einen Blick hineinwerfen will.
Volltextsuche ist sehr schön, aber verzichtbar -- das
ist ein Komfort-Merkmal.

von Egon D. (Gast)


Lesenswert?

Lesender schrieb:

> Ganz üble Sache (im Prinzip schon immer, heutzutage
> natürlich besonders), alleine schon wegen der Rastergrafik.

Unsinn.

Man kann Digitalisate gedruckter Werke auch anständig als
Rastergraphiken speichern -- man muss nur wissen, wie das
geht. JPEG ist jedenfalls ungeeignet.


> PDF ist z. Zt. das einzige erträgliche Format zur Weitergabe
> komplex formatierter Inhalte.

Das widerspricht sich nicht unbedingt -- allein schon
deshalb, weil man nicht 300 einzelne PNG-Dateien für ein
Fachbuch haben will...

von Herr Je (Gast)


Lesenswert?

Egon D. schrieb:
> Volltextsuche ist sehr schön, aber verzichtbar -- das
> ist ein Komfort-Merkmal.

Nein, das ist ein wesentliches Merkmal von anständig digitalisierten 
Texten.

von Egon D. (Gast)


Lesenswert?

Herr Je schrieb:

> Egon D. schrieb:
>> Volltextsuche ist sehr schön, aber verzichtbar -- das
>> ist ein Komfort-Merkmal.
>
> Nein,

Doch.

Es steht Dir frei, anderer Meinung zu sein und mich
aufgrund meiner abweichenden Ansichten lautstark zu
beschimpfen...


> das ist ein wesentliches Merkmal von anständig
> digitalisierten Texten.

Tja, nu...

von Setzer (Gast)


Lesenswert?

Volltextsuche ist kein Komfortmerkmal, sondern unverzichtbar.
Volltextsuche geht naemlich mit einem elektronisch
verarbeitbaren Inhalt einher.
Wer ein Buch heute nur als Bildfolge begreift, hat das
Wesen von "verarbeiten" wohl noch nicht verstanden.

So wie die Brogrammierer bei Adobe.
Ein Adobe Acrobat 9 braucht fuer eine Seite Volltextsuche
ca. 1 Sekunde...
Da kann man dann auch fast auf eine Volltextsuche verzichten.

Bei 500 Seiten Buch koennte man bei Benutzung des Acrobat 9.0
sich also noch getrost einen Kaffee kochen.

WinDjView findet einen Text auf der 513. und letzten Seite
eines Dokumentes in einem Bruchteil einer Sekunde.
Scheinbar ist DJVu doch nicht nur ein Rasterformat und
der Suchalgorithmus in WinDjView etwas intelligenter programmiert.

Was mir fehlt, waere ein Konverter der ein PDF in ein DJVu verwurstet.
Wichtig waere mir eine Uebertragung nicht nur des Textes,
(Vektor-)Grafiken und Bilder, sondern auch der TOC/Bookmarks.

Kennt da jemand was?

von Schlaumaier (Gast)


Lesenswert?

Lesender schrieb:
> Allerdings sind auch EPUB, AZW, MOBI & Co. für Fachliteratur der reinste
> Müll.

Das kommt drauf an.

Der wichtigste Unterschied zwischen EPub und PDF.  EPUB hat KEIN !!! 
Seitenformat. Was einfach gesagt bedeutet, es führt ein Automatischen 
Zeilenumbruch durch. Was dazu führt das es auch keine echte Seitenanzahl 
gibt, es also passieren kann das man 10 x umblättern muss, bevor sich 
die Seitenangabe ändert.

PDF-Fachliteratur auf einen ECHTEN E-Bookreader (Mit E-Ink-Display) ist 
technisch möglich, aber absoluter Unsinn. Die Teile sind ALLE viel zu 
Langsam und in s/w. Farbige E-INK-Displays sind wie Krügerrand-Münzen. 
Es gibt sie aber ich habe noch nie eine gesehen. Davon abgesehen ist das 
keine Echte-Farbe.

PDF ist Standard. !!!

Und ich bin gerne bereit auf irgendwelchen ominösen Luxus zu verzichten, 
wenn ich als Gegenleistung immer das selbe Programm zum Lesen und 
erstellen benutzen kann.

Den selben Mist hat man doch mit Videos auch. 100erte Formate. Wenn man 
Glück hat, ist der Player in der Lage das zu lesen. Ich persönlich 
bevorzuge für meine Aufnahmen das MPG-Format. Der Grund ist einfach. 1 
Milliarde (geschätzt) DVD-Player können sich nicht irren. ;) Obwohl ich 
alle Nachteile kenne.


Ergo. 2 Standards : 1 für Ebooks = PUB  und 1 für Dokumente = PDF.

Ach und PDF ist auch z.T. Open-Source. Und ich bevorzuge da immer die 
Text-Version beim Speichern da ich nix geheimes habe, aber es wesentlich 
einfacher zu reparieren ist.

Und im Zeitalter von TB-SD-Karten ist mir die Speichergröße so was von 
egal.

Ich liebe Online-Kataloge in "Gedruckter" Form. Besonders die 
Werbeblättchen der Discounter etc. Oder auch Pollin /Pearl und Co. Nix 
schleppen und entsorgen und trotzdem alles in perfekter Form. Und ALLES 
mit einer APP (Xodo) zu lesen. ;)

von xyz (Gast)


Lesenswert?

Warum gibt es noch Windows?

von Schlaumaier (Gast)


Lesenswert?

xyz schrieb:
> Warum gibt es noch Windows?

Aus den selben Grund. ?!?!  LEIDER

Weil es Standard ist. Und die Linux Leute 1000 OS-Verianten bauen aber 
keinen Standard.

Weshalb ich mir Linux-Mint angetan habe. Das hat wenigstens eine 
Oberfläche ohne das ich die einfachste Bedienung neu lernen muss.

von Tany (Gast)


Lesenswert?

Schlaumaier schrieb:
> Und die Linux Leute 1000 OS-Verianten bauen aber
> keinen Standard.
...und streiten. Siehe Beispiel IBM gegen SCO

von dieter drucker (Gast)


Lesenswert?

Εrnst B. schrieb:
> Postscript

Nee. Das ist ein Relikt aus den 90ern und sollte da auch bleiben. 
Jedenfalls, solange du nicht irgendwelche Offset-Druckmaschinen 
ansteuerst.

Bis auf Druckereien braucht das so gut wie niemand mehr. Ich kriege 
regelmäßig die Krise, wenn mir unsere grauhaarigen Marketingleute wieder 
irgendwelche EPS-Dateien liefern anstatt mal im Jahr 2022 anzukommen und 
ich die erstmal je nach Anwendung in PDF, SVG oder AI umwandeln muss.

Setzer schrieb:
> Ein Adobe Acrobat 9

ist 14 Jahre alt. Arbeitest du bei uns im Marketing? Die Welt hat sich 
derweil 5110 Mal weitergedreht.

Schlaumaier schrieb:
> Was einfach gesagt bedeutet, es führt ein Automatischen Zeilenumbruch
> durch

Kann PDF auch, aber nicht mit irgendwelchen hirnlos erzeugten Scans, 
sondern mit richtig formatierten Dokumenten, die getaggt wurden. Das 
erhöht die Dateigröße etwas, aber es macht den Lesemodus, den z.B. der 
Acrobat Reader hat, nützlich.

Schlaumaier schrieb:
> PDF ist Standard. !!!

So isset. PDF ist nicht so schlecht, wie es gern gemacht wird.
Und auch das hier benörgelte Javascript kann nützlich sein, um zum 
Beispiel eine Formel nicht nur anzuzeigen, sondern direkt daneben eine 
Eingabemaske mit Ergebnis-Ausgabe anzubieten.

von Walter T. (nicolas)


Lesenswert?

Der andere Opa aus der Muppets Show schrieb:
> Ein PDF-Dokument in Gigabytegröße mit Text, Grafiken und
> Bildern..komprimiert auf <1Mb. Lass mal sehen. Oder doch nur dummes
> Gerede?

Nö, das ist gar nicht so selten. Das passiert mir regelmäßig mit 
Datenblättern in Subversion. Die Datenblatt-Sammlung hat mehrere 
Gigabyte, das SVN-Repo mit allen Versionen weniger als 100 MB. ZIP und 
RAR sind deutlich größer.

von Schlaumaier (Gast)


Lesenswert?

dieter drucker schrieb:
> Kann PDF auch, aber nicht mit irgendwelchen hirnlos erzeugten Scans,
> sondern mit richtig formatierten Dokumenten, die getaggt wurden.

hm.  OK. Mag sein, aber das ist mir noch nie passiert. Obwohl es 
Buchstaben waren, keine gut sortierten Pixel.

Ich denke die Funktion ist so selten das kein Reader sie wirklich 
unterstützt.

Der andere Opa aus der Muppets Show schrieb:
> Ein PDF-Dokument in Gigabytegröße mit Text, Grafiken und
> Bildern..komprimiert auf <1Mb. Lass mal sehen. Oder doch nur dummes
> Gerede?

Halte ich für machbar, wenn man die Auflösung fixiert. Bilder auf die 
Größe einer Briefmarke und den Text als Text eingibt (Buchstaben keine 
sortierten Pixel). Bei kleinen Lesegeräten ist das machbar.

Aber dann sind wir sehr nach an Epub's.

Alternativ (ist machbar aber in mein Foxit von mir blockiert) Bilder 
nachlädt.

von Nano (Gast)


Lesenswert?

In PDF gibt es keine leicht per Computer verarbeitbare Rechnungen ohne 
Redundanz der Daten.
ZUGFeRD ist jedenfalls eine Krücke.

Beitrag #7041338 wurde von einem Moderator gelöscht.
von Der G. (Firma: schlechthin) (gastgeber)


Lesenswert?

> Was mir fehlt, waere ein Konverter der ein PDF in ein DJVu verwurstet.
Das geht mit convert (image magick) pdf in pbm, dann mit cjb2 in djvu 
und mit djvm zusammenfügen/bundeln.

PDF ist super, wenn man Office Dokumente weitergeben will, aber nicht 
wenn man gescannten Text archivieren will.

cuminas vergleicht hier die Möglichkeiten für Ratergrafiken: 
https://www.cuminas.jp/en/about_hc_pdf

Wenn ich dort die pdf und djvu Beispiele in 300dpi JPG convertiere und 
dann wieder mit DJVUSolo komprimiere komme ich auf 25kb mit sehr guter 
Qualität. Wenn ich es ins PDF wandle mit maximaler Kompression, bekomme 
ich 1MB mit miserabler Qualität. Wird also 36x kleiner.

Linux hat Standards, man muss sich nur für eine entscheiden von der sich 
die andren abspalten, diese nutzen und unterstützen, am verbreiteten ist 
Debian:
https://de.wikipedia.org/wiki/Liste_von_Linux-Distributionen

: Bearbeitet durch User
von 123 (Gast)


Lesenswert?

Der G. schrieb:
> Wenn ich dort die pdf und djvu Beispiele in 300dpi JPG convertiere und
> dann wieder mit DJVUSolo komprimiere komme ich auf 25kb mit sehr guter
> Qualität. Wenn ich es ins PDF wandle mit maximaler Kompression, bekomme
> ich 1MB mit miserabler Qualität. Wird also 36x kleiner.

Speicherplatz war noch nie billiger. Ob eine Datei heute wenige kB oder 
mehrere MB hat ist für die Meisten Anwender heute egal. Außerdem sind 
die Geräte schnell genug um auch große Dokumente schnell zu laden und 
flüssig zu scrollen.

von Der G. (Firma: schlechthin) (gastgeber)


Lesenswert?

Verwalten von Daten kostet Geld und Personal, es gibt auch langsame 
Geräte. Nur weil man könnte muss man nicht verschwenden.

von c-hater (Gast)


Lesenswert?

Nano schrieb:

> In PDF gibt es keine leicht per Computer verarbeitbare Rechnungen ohne
> Redundanz der Daten.

Könnte es aber durchaus geben, die grundlegenden Eigenschaften und 
Fähigkeiten dafür bietet PDF. Es wäre einfach nur nötig, sich auf einen 
Standard (im Standard) zu verständigen, also eine spezifischere 
Submenge.

Das wäre ja auch nicht die erste. Siehe z.B. PDF/A.

Das Problem ist nicht technischer Natur. Das Problem ist, dass hier 
einige mächtige Player störend agieren, die nix mehr scheuen als 
problemlose Interoperabilität zwischen verschiedenen ERP-Systemen...

Wir haben halt Kapitalismus. Lerne damit leben oder brich' eine 
Revolution vom Zaum. So einfach ist das.

von Egon D. (Gast)


Lesenswert?

Setzer schrieb:

> Volltextsuche ist kein Komfortmerkmal, sondern
> unverzichtbar.

So.
Und diese Aussage gründet sich auf wieviele eigenhändig
digitalisierte und anschließend benutzte Bücher?

Bei mir sind es ca. 20 Stück (mit insgesamt über 10'000
Seiten).


> Volltextsuche geht naemlich mit einem elektronisch
> verarbeitbaren Inhalt einher.
> Wer ein Buch heute nur als Bildfolge begreift, hat das
> Wesen von "verarbeiten" wohl noch nicht verstanden.

???

Was zum Henker sollte ich an einem digitalisierten
Fachbuch "verarbeiten" wollen? Ich will weder
linguistische Analysen durchführen noch nach der
Schlagwort-Methode Absätze zum Abschreiben in meine
Doktorarbeit suchen. Ich will bei Bedarf einige Seiten
aus dem Buch LESEN -- und das ging auch mit totem
Baum schon, der übrigens auch keine Volltextsuche
kennt.

von Percy N. (vox_bovi)


Lesenswert?

Egon D. schrieb:
> Was zum Henker sollte ich an einem digitalisierten
> Fachbuch "verarbeiten" wollen?
Das ist allein Deine Angelegenheit und für den Rest der Welt völlig 
belanglos.
> Ich will weder
> linguistische Analysen durchführen noch nach der
> Schlagwort-Methode Absätze zum Abschreiben in meine
> Doktorarbeit suchen.
Schön für Dich. Dann lass es halt bleiben.

Andere möchten gern längere Corpora nach bestimmten Schlagwörtern 
durchforsten, und das mehrfach. Sollen die das nicht dürfen, weil Du das 
nicht brauchst?

> Ich will bei Bedarf einige Seiten
> aus dem Buch LESEN -- und das ging auch mit totem
> Baum schon, der übrigens auch keine Volltextsuche
> kennt.

Dann bleib doch einfach beim Papier und überlasse das Digitalisat denen, 
die damit innovativ umzugehen verstehen.

: Bearbeitet durch User
von Einer (Gast)


Lesenswert?

Der G. schrieb:
> Das DJVU Dateiformat ist unglaublich...

...alt und tot.

Vor vielen Jahren war es mal kurz Mode in diversen "Szenen". In dieser 
Zeit hat aber das PDF-Milieu einen kräftigen Entwicklungssprung gemacht, 
und damit starb DJVU schneller als man auf 3 zählen konnte.

von Einer (Gast)


Lesenswert?

Egon D. schrieb:
> Angehängt ist eine Arbeitskopie mit 300dpi und
> 8 Graustufen (= 3 Bit), Dateigröße knapp 180kByte.

Ein schönes Beispiel für untaugliche Qualität: Zerfranste Buchstaben, 
unruhiges Schriftbild, vollgelaufene Flächen, ausgedünnte Linien.

Kurzum: Einfach nur furchtbar.

Wir haben 2022. Niemand muss sich mehr den Pixelmüll aus dem letzten 
Jahrtausend antun.

von Egon D. (Gast)


Lesenswert?

Percy N. schrieb:

> Egon D. schrieb:
>> Was zum Henker sollte ich an einem digitalisierten
>> Fachbuch "verarbeiten" wollen?
>
> Das ist allein Deine Angelegenheit und für den Rest
> der Welt völlig belanglos.

Das gilt noch mehr für Deine pseudo-juristischen
Spitzfindigkeiten -- trotzdem ist das hier immer noch
ein DISKUSSIONS - Forum.

Schon gewusst?

Wenn Dich meine Ansicht nicht interessiert, dann lies
sie halt nicht -- und noch wichtiger: Verschwende Deine
wertvolle Zeit auch nicht mit Antworten!


> Andere möchten gern längere Corpora nach bestimmten
> Schlagwörtern durchforsten, und das mehrfach. Sollen
> die das nicht dürfen, weil Du das nicht brauchst?

Du zeigst mir doch bitte ein wörtliches Zitat der
Textstelle, an der ich das gefordert habe, nicht
wahr.


>> Ich will bei Bedarf einige Seiten
>> aus dem Buch LESEN -- und das ging auch mit totem
>> Baum schon, der übrigens auch keine Volltextsuche
>> kennt.
>
> Dann bleib doch einfach beim Papier

Nein. Warum sollte ich?

Bücher haben den großen Nachteil, dass man entweder
nur umständlichen und zeitbeschränkten Zugang hat
(--> öffentliche Bibliothek) oder einige Kubikmeter
Speicherplatz benötigt für die langen Zeiten, in
denen man NICHT in ihnen liest (--> eigener Besitz).


> und überlasse das Digitalisat denen, die damit
> innovativ umzugehen verstehen.

Nun... ich kann nichts dafür, dass Du den Unterschied
zwischen "innovativ" und "vernünftig" nicht kennst...

von Dieter (Gast)


Lesenswert?

Zum Deufel mit Euch! Wer von Euch hat P. geweckt? Jetzt habt Ihr den 
Salat!

von Egon D. (Gast)


Lesenswert?

Einer schrieb:

> Egon D. schrieb:
>> Angehängt ist eine Arbeitskopie mit 300dpi und
>> 8 Graustufen (= 3 Bit), Dateigröße knapp 180kByte.
>
> Ein schönes Beispiel für untaugliche Qualität:
> Zerfranste Buchstaben, unruhiges Schriftbild,
> vollgelaufene Flächen, ausgedünnte Linien.
>
> Kurzum: Einfach nur furchtbar.

Ach. Echt?
Na, dann lass mal sehen...

von Frank E. (Firma: Q3) (qualidat)


Lesenswert?

dieter drucker schrieb:
> Εrnst B. schrieb:
>> Postscript
>
> Nee. Das ist ein Relikt aus den 90ern und sollte da auch bleiben.
> Jedenfalls, solange du nicht irgendwelche Offset-Druckmaschinen
> ansteuerst.
>

Postscript ist aus dem Workflow von Druckereien verschwunden, weil es 
kein (inzwischen standardisiertes) ICC-Colormanagement beherrscht. Es 
gab da zwar eine Workaround-Krücke mit "postscript color spaces", aber 
das machte aufwändige Umrechnereien notwendig - weg damit. PDF hat 
einige Möglichkeiten von Postscript geerbt (z.B. Vektor-Befehle wie 
MoveTo, LineTo CurveTo ...) - kommt schließlich alles aus dem Hause 
Adobe.

Colormanagement ist die Summe an Messtechnik, Algorithmen und Verfahren, 
die dafür sorgen, dass Farben auf allen Ausgabegeräten und Ausgabemedien 
(im Rahmen des technisch möglichen) gleich aussehen. Z.B. im Zeitalter 
des Online-Handels (z.B. auch von Textilien) nicht ganz unwichtig ...

EPUB ist für kleine Ebook-Reader besser als PDF, weil das Layout 
"flüssig" bleibt und somit vor Allem Zoom und Umbruch flexibel sind. 
EPUB beruht auf XML und hat eine enge Verwandschaft zu (X)HTML. Sonst 
müsste man auf kleinen Geräten ständig nur Zoomen und Verschieben. Wenn 
man einen großen Reader hat (Nähe A4), spielt das weniger eine Rolle ...

: Bearbeitet durch User
von Percy N. (vox_bovi)


Lesenswert?

Egon D. schrieb:
>> Andere möchten gern längere Corpora nach bestimmten
>> Schlagwörtern durchforsten, und das mehrfach. Sollen
>> die das nicht dürfen, weil Du das nicht brauchst?
>
> Du zeigst mir doch bitte ein wörtliches Zitat der
> Textstelle, an der ich das gefordert habe, nicht
> wahr.

Du hast Recht, ich hätte besser fragen sollen, warum andere auf eine 
Funktionalität verzichten sollen, mit der Du nichts anzufangen weißt. 
Und ja, Du hast diese Funktionalität für überflüssig erklärt.schon 
vergessen? Hier:

Egon D. schrieb:
> Was zum Henker sollte ich an einem digitalisierten
> Fachbuch "verarbeiten" wollen? Ich will weder
> linguistische Analysen durchführen noch nach der
> Schlagwort-Methode Absätze zum Abschreiben in meine
> Doktorarbeit suchen. Ich will bei Bedarf einige Seiten
> aus dem Buch LESEN -- und das ging auch mit totem
> Baum schon, der übrigens auch keine Volltextsuche
> kennt.

Die verräterische Formulierung lautet "ICH will", und diese taucht 
gleich zweimal auf.

Die alberne Polemik mit der Plagiatsthematik macht das Ganze auch nicht 
besser.

Egon D. schrieb:
> Nun... ich kann nichts dafür, dass Du den Unterschied
> zwischen "innovativ" und "vernünftig" nicht kennst...

Wie schön für Dich, dass Du Inhaber der Definitionsmacht hinsichlich der 
Frage zu sein glaubst, was für andere vernünftig ist.

Egon D. schrieb:
> So.
> Und diese Aussage gründet sich auf wieviele eigenhändig
> digitalisierte und anschließend benutzte Bücher?

Bei mir waren es einige Dutzend, allein aus dem Zweck

Egon D. schrieb:
> Bücher haben den großen Nachteil, dass man entweder
> nur umständlichen und zeitbeschränkten Zugang hat
> (--> öffentliche Bibliothek) oder einige Kubikmeter
> Speicherplatz benötigt für die langen Zeiten, in
> denen man NICHT in ihnen liest (--> eigener Besitz).

Da es sich um Bücher handelte, die ich schon kannte und aus denen ich 
auch keine Zitate brauchte, war das durchaus annehmbar.

Im Vergleich mit von Dritten digitalisierten oder transkribierten Texten 
war aber klar, dass die eigenen nicht durchsuxhbaren "Digitalisate" 
nicht besser zu brauchen waren als ein riesieger Stapel Fotokopien, 
lediglich leichter zu transportieren.

Egon D. schrieb:
> Das gilt noch mehr für Deine pseudo-juristischen
> Spitzfindigkeiten -- trotzdem ist das hier immer noch
> ein DISKUSSIONS - Forum.

Es mag ja sein, dass Du mit der Rechtsordnung so wenig anzufangen weißt 
wie mit durchsuchbaren Digitalisaten, kein Problem. Aber die Tatsache, 
dass es sich hier um ein Diskussionsforum handelt, impliziert zugleich, 
dass Deine Bedürfnisse nicht als allgemeinverbindlich dargestellt werden 
sollten.

: Bearbeitet durch User
von Einer (Gast)


Lesenswert?

Egon D. schrieb:
> Na, dann lass mal sehen...

Du bist vielleicht ein komischer Vogel!?

Es ist Dein Scan mit 300 dpi und 3 Bit Graustufen der grausig aussieht.

Siehst Du nicht? Auf zum Augenarzt!

von c-hater (Gast)


Lesenswert?

Frank E. schrieb:

> EPUB ist für kleine Ebook-Reader besser als PDF, weil das Layout
> "flüssig" bleibt und somit vor Allem Zoom und Umbruch flexibel sind.

Und damit eigentlich auch von Hause aus und von Beginn an ziemlich 
überflüssig. HTML existiert seit unzähligen Jahren und könnte alles 
abbilden, was EPUB kann. Man könnte HTML dafür sogar noch ganz erheblich 
abrüsten.

Sprich: statt EPUB ein stark abgerüstetes und verschlanktes HTML und man 
könnte den Scheiß wirklich universell und einfach nutzen.

Aber wie so oft: Das war garnicht gewünscht, zumindest nicht von Seiten 
der Anbieter...

von Egon D. (Gast)


Lesenswert?

Percy N. schrieb:

> Du hast Recht, ich hätte besser fragen sollen, warum
> andere auf eine Funktionalität verzichten sollen, mit
> der Du nichts anzufangen weißt.

Das wäre BESSER gewesen, in der Tat -- aber noch lange
nicht GUT.


> Und ja, Du hast diese Funktionalität für überflüssig
> erklärt.

Nein.
Tut mir leid -- einfach: Nein!


> schon vergessen? Hier: [...]

Ich kann nichts dafür, dass Du im falsch Zuordnen von
Zitaten besser bist als im sachlichen Argumentieren:

Ich habe in EINEM Beitrag die Volltextsuche als
"Komfort-Funktion" bezeichnet. Ja. Das habe ich.

Ich habe IN EINEM ANDEREN Beitrag die polemische Frage
gestellt, was ich an einem digitalisierten Fachbuch
"verarbeiten" soll -- ich will das Buch LESEN!
Direkter (wahlfreier) Zugriff auf einzelne Seiten oder
Kapitel ist kein "verarbeiten" -- und das geht auch ohne
Volltextsuche.


> Egon D. schrieb:
>> Nun... ich kann nichts dafür, dass Du den Unterschied
>> zwischen "innovativ" und "vernünftig" nicht kennst...
>
> Wie schön für Dich, dass Du Inhaber der Definitionsmacht
> hinsichlich der Frage zu sein glaubst, was für andere
> vernünftig ist.

Och, ich passe mich nur den hier üblichen Gepflogenheiten
an...


> Egon D. schrieb:
>> So.
>> Und diese Aussage gründet sich auf wieviele eigenhändig
>> digitalisierte und anschließend benutzte Bücher?
>
> Bei mir waren es einige Dutzend,

Das ist doch mal eine Ansage. Okay.


> [...]
>
> Im Vergleich mit von Dritten digitalisierten oder
> transkribierten Texten war aber klar, dass die eigenen
> nicht durchsuxhbaren "Digitalisate" nicht besser zu
> brauchen waren als ein riesieger Stapel Fotokopien,
> lediglich leichter zu transportieren.

Das entspricht weitgehend meiner eigenen Erfahrung --
mit einer Einschränkung: Zwischen "Stapel Fotokopien"
und "Volltextsuche" gibt es Abstufungen.

Die erste Abstufung ist, dass das Inhaltsverzeichnis
funktioniert -- dass man also wie beim gedruckten Buch
direkt zum gewünschten Kapitel springen kann.

Die zweite Abstufung wäre, dass das Schlagwortverzeich-
nis - so vorhanden - genauso funktioniert wie das
Inhaltsverzeichnis.

Wenn jetzt noch alle Seiten in einer Container-Datei
zusammengefasst sind, haben wir erstmal alle die
Nutzungsmöglichkeiten WIEDERHERGESTELLT, die mit einem
gedruckten Buch OHNEHIN SCHON möglich sind.

JETZT können wir über Volltextsuche diskutieren, wenn
wir wollen...


> Egon D. schrieb:
>> Das gilt noch mehr für Deine pseudo-juristischen
>> Spitzfindigkeiten -- trotzdem ist das hier immer noch
>> ein DISKUSSIONS - Forum.
>
> Es mag ja sein, dass Du mit der Rechtsordnung so wenig
> anzufangen weißt [...]

Schon wieder... er KANN es einfach nicht lassen: Die
RECHTSORDNUNG ist Gottseidank nicht deckungsgleich mit
Deinen ständigen pseudo-juristischen Spitzfindigkeiten.

von Egon D. (Gast)


Lesenswert?

Einer schrieb:

> Egon D. schrieb:
>> Na, dann lass mal sehen...
>
> Du bist vielleicht ein komischer Vogel!?

Tja, und Du bist eben ein geifernder Pöbelmeier.
So hat halt jeder sein Päckchen zu tragen, nicht
wahr...


> Es ist Dein Scan mit 300 dpi und 3 Bit Graustufen

Ach daher weht der Wind.

Nein, das ist KEIN Scan. Das ist eine Arbeitskopie,
die aus einem höher aufgelösten Scan hergestellt
wurde.

Ist aber eine interessante Idee; danke für die Anregung:
Ich müsste mal so eine Arbeitskopie mit einem direkten
300dpi/3bit-Scan vergleichen.


> der grausig aussieht.

Okay: Stelle eine Bilddatei (mit vergleichbarem
Bildinhalt) her, die auf meinem 100dpi-Monitor (mit
1280x1024 Pixeln) als komplette Seitenansicht besser
aussieht als die von mir gezeigte.

von Percy N. (vox_bovi)


Lesenswert?

Egon D. schrieb:
> JETZT können wir über Volltextsuche diskutieren, wenn
> wir wollen...

Darüber brauchen wir nicht zu diskutieren.

Ich möchte sie gern haben, Dir geht sie am Arsch vorbei. Damit sind 
unsere Bedürfnisse nicht kongruent. Zu diskutieren gibt es da nichts; 
von mir aus kannst Du mit einer Sammlung .png-Dateien glücklich werden. 
Es besteht kein Grund, Dir die Vorteile oktroyieren zu wollen, die Du 
nicht zu nutzen bereit bist.

Kein Problem; ich werde Dir auch nicht vorschreiben, welche Speisen und 
Getränke Du bevorzugen sollst.

Egon D. schrieb:
> Ich habe in EINEM Beitrag die Volltextsuche als
> "Komfort-Funktion" bezeichnet. Ja. Das habe ich.
> Ich habe IN EINEM ANDEREN Beitrag die polemische Frage
> gestellt, was ich an einem digitalisierten Fachbuch
> "verarbeiten" soll -- ich will das Buch LESEN!
> Direkter (wahlfreier) Zugriff auf einzelne Seiten oder
> Kapitel ist kein "verarbeiten" -- und das geht auch ohne
> Volltextsuche.

Schön für Dich. Aber nicht hinreichend für mich. Eine Idiotenwiese ist 
sicherlich nützlich, wenn sie ordentlich erstellt wurde; insbesondere 
ist sie schreibungstolerant und semantisch differenziert, was beides 
nicht von der Volltextsuche geleistet werden kann. Dafür ist der 
Benutzer vom Ersteller des Index abhängig.

Da mir das Digitalisat aber einen Mehrwert gegenüber dem Buch bieten 
kann, will ich diesen auch realisieren - zum Schmökern ist das Buch 
bequemer.

Nur kann ich damit zB nicht on zumutbarer Zeit herausfinden,  wann im 
Schriftdeutschen Formulierungen wie "Sinn machen" oder "geschuldet sein" 
auftauchen und wer sie eingeführt hat. Mit Volltextsuche ist das eine 
Sache weniger Minuten, wenn überhaupt.

Wenn ich wissen möchte, wue viele,Straftatbestände im deutschen StGB 
als,Höchststeafe sechs Monate Freiheitssteafe androhen, geht das per 
Volltextsuche ganz einfach.

Wenn Du wissen möchtest, wie oft im Grundgesetz von "liebe" die,Rede 
ist, wirst Du ohne Volltextsuche nur mühsam herausfinden können ...

Das alles interessiert Dich nicht? Macht nichts; das ist dann Dein 
persönliches Schicksal. Ich habe lieber mein eigenes.

Danke!

von Nano (Gast)


Lesenswert?

c-hater schrieb:
> Nano schrieb:
>
>> In PDF gibt es keine leicht per Computer verarbeitbare Rechnungen ohne
>> Redundanz der Daten.
>
> Könnte es aber durchaus geben, die grundlegenden Eigenschaften und
> Fähigkeiten dafür bietet PDF. Es wäre einfach nur nötig, sich auf einen
> Standard (im Standard) zu verständigen, also eine spezifischere
> Submenge.
>
> Das wäre ja auch nicht die erste. Siehe z.B. PDF/A.

ZUGFeRD bettet XML ein, was im Prinzip nicht schlecht ist, wenn da nur 
die Redundanz nicht wäre.
Redundanz bedeutet hier, dass bspw. die Preis dann nochmal im PDF in PDF 
Formatierung vorhanden ist.
Das hat zu Folge, dass man beide Preise auf Gleichheit überprüfen muss 
und wollte man das automatisiert machen, dann müsste man somit auch den 
PDF Text parsen und nicht nur den XML Text, was das ganze ad absurdum 
führt.


>
> Das Problem ist nicht technischer Natur. Das Problem ist, dass hier
> einige mächtige Player störend agieren, die nix mehr scheuen als
> problemlose Interoperabilität zwischen verschiedenen ERP-Systemen...
>
> Wir haben halt Kapitalismus. Lerne damit leben oder brich' eine
> Revolution vom Zaum. So einfach ist das.

Ich finde Kapitalismus sehr gut, er hat für viel mehr Menschen den 
Wohlstand angehoben und die Preise von Gütern durch seine inhärente 
Effizienz gesenkt.
Daher können dank Kapitalismus sich viel mehr Menschen einen 
Kühlschrank, Wäschetrockner oder High End PC leisten, was ohne 
Kapitalismus nicht gegangen wäre und für die meisten immer noch sündhaft 
teuer bis unbezahlbar wäre.

von Egon D. (Gast)


Lesenswert?

Percy N. schrieb:

> Egon D. schrieb:
>> JETZT können wir über Volltextsuche diskutieren, wenn
>> wir wollen...
>
> Darüber brauchen wir nicht zu diskutieren.

Warum diskutieren wir dann?


> Ich möchte sie gern haben, Dir geht sie am Arsch vorbei.

Hmm.

Offenbar brauchen wir tatsächlich nicht zu diskutieren,
denn Du bist ja nicht einmal in der Lage, den Standpunkt
Deines Opponenten -- also meinen Standpunkt -- korrekt
wiederzugeben.

Volltextsuche geht mir keineswegs "am Arsch vorbei" --
ich halte sie nur nicht für "unverzichtbar", wie oben
apodiktisch behauptet wurde.

Dass ein Wortklauber der Meisterklasse wie Du den
Bedeutungsunterschied nicht sieht, irritiert doch schon
ein wenig...

von Nano (Gast)


Lesenswert?

Egon D. schrieb:
> Setzer schrieb:
>
>> Volltextsuche ist kein Komfortmerkmal, sondern
>> unverzichtbar.
>
> So.
> Und diese Aussage gründet sich auf wieviele eigenhändig
> digitalisierte und anschließend benutzte Bücher?
>
> Bei mir sind es ca. 20 Stück (mit insgesamt über 10'000
> Seiten).

Volltextsuche wäre für mich das einzige Argument ein Buch als eBook zu 
kaufen.
Normale Bücher in Papierform kann man nämlich weiterverkaufen, manche 
steigen sogar im Wert. Mit eBooks geht das aus rechtlichen Gründen 
nicht.

Das Schleppargument zählt für mich nicht, denn so viel wollte ich in 
bspw. einem Urlaub nie lesen und 1-2 Papierbücher krieg ich im Koffer 
auch noch unter.

Und das Umwelargument zählt für mich auch nicht. Das Papierbuch bindet 
CO2 und braucht weder Strom, noch umwelttechnisch oft problematische 
Kurzlebhardware oder eine Backupstrategie.

Aber die Volltextsuche ist ein enormer Vorteil, wenn sie denn geboten 
wird.



>> Volltextsuche geht naemlich mit einem elektronisch
>> verarbeitbaren Inhalt einher.
>> Wer ein Buch heute nur als Bildfolge begreift, hat das
>> Wesen von "verarbeiten" wohl noch nicht verstanden.
>
> ???

Er meinte:
PDF Dateien im gescannten Pixelformat lassen sich nicht durchsuchen.
Text, der nur noch vektorisiert dargestellt werden muss schon.


> Was zum Henker sollte ich an einem digitalisierten
> Fachbuch "verarbeiten" wollen? Ich will weder
> linguistische Analysen durchführen noch nach der
> Schlagwort-Methode Absätze zum Abschreiben in meine
> Doktorarbeit suchen.

Die Suchfunktion kann man immer gebrauchen.


> Ich will bei Bedarf einige Seiten
> aus dem Buch LESEN -- und das ging auch mit totem
> Baum schon, der übrigens auch keine Volltextsuche
> kennt.

Ein Nachteil des Papierbuches

von Percy N. (vox_bovi)


Lesenswert?

Egon D. schrieb:
> Warum diskutieren wir dann?

Du hast sicherlich Recht. Doch, doch. Bestimmt!

Zufrieden?

von Setzer (Gast)


Lesenswert?

> Das geht mit convert (image magick) pdf in pbm, dann mit cjb2 in djvu
> und mit djvm zusammenfügen/bundeln.

TNX
Werd ich mal probieren.

> Ich will weder
> linguistische Analysen durchführen

Ein "Stapel" deutscher Gegenwarteliteratur, ueber einen
groesseren Zeitraum (1960 bis heute), erlaubt einen interessanten
Blick auf den Wandel der Sprache, das "Framing" von Begriffen
und vieles mehr.

Aber du darfst dir gerne weiter deine PNGs ansehen.

P.rn.grafische Literatur wird ja in einschlaegien Kreisen
ja auch als Sammlung von JPeGs durch die Gegend gereicht...
Da stoert der matschige Text und die fehlende Suche ja auch keinen.

von Percy N. (vox_bovi)


Lesenswert?

Setzer schrieb:
> Ein "Stapel" deutscher Gegenwarteliteratur, ueber einen
> groesseren Zeitraum (1960 bis heute), erlaubt einen interessanten
> Blick auf den Wandel der Sprache, das "Framing" von Begriffen
> und vieles mehr.

Falls Du zufällig darüber stolpern solltest, wer als Erster von 
"aufgerufenen Preisen" geschrieben hat, lass es mich bitte wissen. 
Ebenso, welcher Depp als Erster "eineindeutig" für die Steigerung von 
"eindeutig" gehalten hat.

: Bearbeitet durch User
von Setzer (Gast)


Lesenswert?

Achso: Man kann natuerlich eine Volltextsuche auch in einem
gedruckten Buch veranstalten. Es braucht halt etwas laenger...
Aber die Bibelkundler haben das drauf!

von Percy N. (vox_bovi)


Lesenswert?

Setzer schrieb:
> Achso: Man kann natuerlich eine Volltextsuche auch in einem
> gedruckten Buch veranstalten. Es braucht halt etwas laenger...
> Aber die Bibelkundler haben das drauf!

Die verwenden Ausgaben mit einem reichhaltigen Apparat von Fußnoten. So 
etwas als Digitalisat wäre tatsächlich nützlich.

: Bearbeitet durch User
von Setzer (Gast)


Lesenswert?

> welcher Depp

Der kannte weder Relationen noch den Superlativ: "eindeutigst".
Aber ist notiert.

von Egon D. (Gast)


Lesenswert?

Nano schrieb:

> Egon D. schrieb:
>> Setzer schrieb:
>>
>>> Volltextsuche ist kein Komfortmerkmal, sondern
>>> unverzichtbar.
>>
>> So.
>> Und diese Aussage gründet sich auf wieviele eigenhändig
>> digitalisierte und anschließend benutzte Bücher?
>>
>> Bei mir sind es ca. 20 Stück (mit insgesamt über 10'000
>> Seiten).
>
> Volltextsuche wäre für mich das einzige Argument ein Buch
> als eBook zu kaufen.

Naja, ich sprach ja auch nicht davon, ein eBook zu kaufen,
sondern von der Digitalisierung gedruckter Bücher.

Ganz offensichtich stecken da unterschiedliche Anwendungs-
szenarien dahinter -- auch wenn die Technik ähnlich oder
gleich ist.

Der Text für ein heute neu erscheinende eBook wird in
der Regel vom Autor komplett mit dem PC erfasst werden,
und da ist es natürlich ein Leichtes, eine Volltextsuche
anzubieten.

Der Gegenpol wäre etwa Otto Luegers "Lexikon der gesamten
Technik" von 1923...


> Normale Bücher in Papierform kann man nämlich
> weiterverkaufen, manche steigen sogar im Wert. Mit eBooks
> geht das aus rechtlichen Gründen nicht.

Entscheidender Mangel.


> Das Schleppargument zählt für mich nicht, denn so viel
> wollte ich in bspw. einem Urlaub nie lesen und
> 1-2 Papierbücher krieg ich im Koffer auch noch unter.

Ich habe gern gedruckte Bücher -- aber das Problem mit
dem Speichervolumen ist im Laufe der Jahrzehnte immer
dringender für mich geworden.


> Und das Umwelargument zählt für mich auch nicht. Das
> Papierbuch bindet CO2 und braucht weder Strom, noch
> umwelttechnisch oft problematische Kurzlebhardware
> oder eine Backupstrategie.

Ja... ich würde sagen, das steht im Moment unentschieden.


> Aber die Volltextsuche ist ein enormer Vorteil, wenn
> sie denn geboten wird.

Zweifellos.


>> Was zum Henker sollte ich an einem digitalisierten
>> Fachbuch "verarbeiten" wollen? Ich will weder
>> linguistische Analysen durchführen noch nach der
>> Schlagwort-Methode Absätze zum Abschreiben in meine
>> Doktorarbeit suchen.
>
> Die Suchfunktion kann man immer gebrauchen.

Keine Frage.

Die Aussage, der ich widersprochen habe, war aber:
"Volltextsuche ist unverzichtbar", und das bedeutet
in meinem Universum: Es geht in gar keinem Fall ohne,
und das stimmt einfach nicht.


>> Ich will bei Bedarf einige Seiten
>> aus dem Buch LESEN -- und das ging auch mit totem
>> Baum schon, der übrigens auch keine Volltextsuche
>> kennt.
>
> Ein Nachteil des Papierbuches

Manchmal, ja. Bei bestimmten Anwendungen. Bei anderen
nicht.

von Egon D. (Gast)


Lesenswert?

Setzer schrieb:

>> Ich will weder linguistische Analysen durchführen
>
> Ein "Stapel" deutscher Gegenwarteliteratur, ueber einen
> groesseren Zeitraum (1960 bis heute), erlaubt einen
> interessanten Blick auf den Wandel der Sprache, das
> "Framing" von Begriffen und vieles mehr.

Das mag ja sein -- aber das war ganz bestimmt nicht der
Grund, warum ich u.a. das "Lehrbuch für den Optik-
Konstrukteur" digitalisiert habe.

Es mag Dir völlig absurd vorkommen, aber manche Leute
wollen mit einem digitalisierten Buch genau das machen,
was sie mit einem gegenständlich vorliegenden auch tun
würden: ES LESEN !


> Aber du darfst dir gerne weiter deine PNGs ansehen.

Ach echt?
Na, da bin ich jetzt aber erleichtert...

von Percy N. (vox_bovi)


Lesenswert?

Egon D. schrieb:
> Der Gegenpol wäre etwa Otto Luegers "Lexikon der gesamten
> Technik" von 1923...

Habi ich als Digitalisat, durchsuchbar, mit Umschaltmöglichkeit aus dem 
Fließtext in das Faksimile. Und tatsächlich finden sich Fehler im 
Neusatz, zB Jaggewehre: engl Schaffung statt Schäftung.

Ebenso etwa Herders Conversations-Lexikon (1854-1857). Hier erfreut im 
Zweifel die Umschaltmöglichkeit auf das Fraktur-Faksimile, während der 
Antiqua-Neusatz durchsuchbar ist.

Im Abramowitz-Stegun hingegen wäre eine Volltextsuche weniger 
überzeugend, und zur Durchsuchung der Liste der Integrale im Bronstein 
taugt sie schon gar nicht.

: Bearbeitet durch User
von Schlaumaier (Gast)


Lesenswert?

c-hater schrieb:
> Sprich: statt EPUB ein stark abgerüstetes und verschlanktes HTML und man
> könnte den Scheiß wirklich universell und einfach nutzen.

Du hast 0 Ahnung von Epub.

Mein Tipp : Besorg dir eins.  Benenne es in buch.zip um und entpacke es.

Dann findest du HTML-Code-Dateien, CSS Dateien , Bildchen (vielleicht) 
und ne Menge anders Zeug.

Epub ist ergo ein "standardisiertes" Container-Format.

Ach falls das mit den Auspacken nicht funktioniert. Es ist oft wegen DRM 
und Co. gegen entpacken geschützt. ;)

Ist übrigens fast das selbe wie das neue Office X-Format (z.b.  xlsX bei 
Excel). Das kannst du auch in ZIP umbenennen und auspacken. Mache ich 
wenn ich die Bilder aus einer Excel-Datei haben will. Geht schneller als 
raus zu kopieren. ;)

CBR = (Comic-Buchk-Format) ist noch einfacher.

Bilder nehmen. Die Datei-Namen von 1 bis .... durchnummerieren, in ein 
Päckchen machen, dann umbenennen in CBR und schon kann man die mit einen 
CBR-Reader hervorragend auf einen Tablett lesen.

Der Witz an der Geschichte.

Ich mache das gerne mit Scanns die ich unterwegs brauche. PDF in JPG 
umwandeln. Dann stimmt sogar schon die Dateinamen. ;)

Weil auf den Tablett der PDF-Reader ne Menge Stress hat, bei so Dateien. 
Den CBR-Reader ist die Dateigröße egal. Der packt nur die nächste Datei 
"in den Speicher" aus,und zeigt sie an. Und selbst mein kleines Handy 
(Samsung a5 (2017) wird Problemlos mit einer 500 MB großen Datei fertig.

Ich sag ja immer. Ist alles der selbe Suppe. Nur die Zutaten ändern sich 
leicht. ;)  Man darf sich halt nur nicht alles von den Herstellern 
glauben.

Programmierer sind halt alle faul.  Und CSS bzw. HTML-Reader gibt es wie 
Sand am Meer als Include-Datei.

von Schlaumaier (Gast)


Lesenswert?

Nano schrieb:
> Volltextsuche wäre für mich das einzige Argument ein Buch als eBook zu
> kaufen.

Da gibt es bei Epub aber auch noch andere feine Sachen. z.b. 
Lesezeichen, Direktübersetzung, Wörterbücher u.s.w.  Man muss nur den 
richtigen Reader benutzen.

Ach und nur so nebenbei. Es gibt ne App die liest dir das Epub sogar 
vor. Gut verständlich aber ich würde es nur nutzen wenn ich Blind wäre. 
Computer haben keine Gefühle.

Ich habe mir ein Buch gekauft neulich. Aus toten Baum hergestellt. Der 
Witz. Völlig in Schwarz / weiß.

arduino kompendium elektronik programmierung und projekte

Im Buch ist ein Code drin mit den man sich das Buch beim Verlag als 
EPub, PDF , Mobi herunterladen kann für lau. Da sind die Zeichungen 
sogar in Farbe. ;)

DAS ist in mein Augen die perfekte Lösung. Unterwegs was nachschlagen 
als Epub, und zu Hause dann was in der Hand zum lesen. Wie man es als 
Kind gemacht hat.

Wenn das mehr Verlage machen würden, fände ich das prima.

von Nano (Gast)


Lesenswert?

Egon D. schrieb:
> Nano schrieb:
>> Die Suchfunktion kann man immer gebrauchen.
>
> Keine Frage.
>
> Die Aussage, der ich widersprochen habe, war aber:
> "Volltextsuche ist unverzichtbar", und das bedeutet
> in meinem Universum: Es geht in gar keinem Fall ohne,
> und das stimmt einfach nicht.

Gut in meinem Fall heiß es, wenn ich vor der Wahl stehe beim Kaufen:

1. gedrucktes Buch in Papierform mit Weiterverkaufsrecht

vs.

2. Digitales Buch, aber ohne Volltextsuche und nur Pixeldaten.

dann gewinnt klar Variante 1. Daraus ergibt sich das Muss für die 
Volltextsuche in der digitalen Variante, denn sonst kann ich auf die 
auch gleich verzichten.

Für alte Bücher wäre OCR und eine manuelle Überarbeitung möglich und 
wenn ich dafür Geld zahlen soll, dann erwarte ich das auch.

von Sigma (Gast)


Lesenswert?

Man kann PDF-Dateien auch komprimieren, vor allem die enthaltenen 
Bilder. Dafür gibt es Tools wo man alles nach den eigenen Ansprüchen 
einstellen kann.

Ansonsten ist webp super für Scans oder Grafiken. Das Format ist ein 
ganzes Stück effizienter als png.

von Nano (Gast)


Lesenswert?

Schlaumaier schrieb:
> Nano schrieb:
>> Volltextsuche wäre für mich das einzige Argument ein Buch als eBook zu
>> kaufen.
>
> Da gibt es bei Epub aber auch noch andere feine Sachen. z.b.
> Lesezeichen, Direktübersetzung, Wörterbücher u.s.w.  Man muss nur den
> richtigen Reader benutzen.

Lesezeichen geht beim klassischen Buch auf per gelber Haftnotizen.
Und Bleifstift und Textmarker gibts auch noch, falls ich mit dem Buch 
arbeiten muss und es notwendig sein sollte.
Direktübersetzung brauch ich nicht, ich lese Bücher nur auf Deutsch oder 
Englisch und das kann ich beides gut genug um den Inhalt zu verstehen.
Wenn da mal ein Wort dabei ist, dann kann man auch den Computer oder 
neuerdings das Smartphone fragen.


> Ach und nur so nebenbei. Es gibt ne App die liest dir das Epub sogar
> vor. Gut verständlich aber ich würde es nur nutzen wenn ich Blind wäre.
> Computer haben keine Gefühle.

Man kann auch Audiobooks auf CD kaufen, die darf man wieder verkaufen 
und die haben dann auch ordentliche menschliche Sprecher.


>
> Ich habe mir ein Buch gekauft neulich. Aus toten Baum hergestellt. Der
> Witz. Völlig in Schwarz / weiß.
>
> arduino kompendium elektronik programmierung und projekte
>
> Im Buch ist ein Code drin mit den man sich das Buch beim Verlag als
> EPub, PDF , Mobi herunterladen kann für lau. Da sind die Zeichungen
> sogar in Farbe. ;)

Ja, eine löbliche Ausnahme, wenn man per Code die eBook Version bekommt.
Das mag ich auch gerne, bietet aber nicht jeder Verlag an.

Und was die Farbe betrifft. Wenn die Auflage zu teuer ist, dann kostet 
der Mehrfachfarbdruck halt mehr oder der Autor verlegt selber und wollte 
nicht mit der Kostenfinanzierung in die Bresche springen.


> DAS ist in mein Augen die perfekte Lösung. Unterwegs was nachschlagen
> als Epub, und zu Hause dann was in der Hand zum lesen. Wie man es als
> Kind gemacht hat.

Klar.

> Wenn das mehr Verlage machen würden, fände ich das prima.

Machen viele leider nicht. Manche bieten die Ebook Version zum Buch 
vergünstigt an wenn man beides zusammen kauft. Andere wollen für beides 
den gleichen Betrag.

von Peter D. (peda)


Lesenswert?

Wenn ich Datenblätter suche, dann meide ich möglichst TI, das sind oft 
noch grauenhafte Fotokopien aus den alten Datenbüchern:

https://www.ti.com/lit/gpn/cd4040b

Dann suche ich z.B. bei Nexperia:

https://assets.nexperia.com/documents/data-sheet/74HC_HCT4040.pdf

von Bär Nulli (Gast)


Lesenswert?

Ich weiß nicht, womit Buchverleger heute noch ihr Geld verdienen. Ich 
verlege meine Bücher selbst und weiß nicht, ob sie auf dem Nachttisch, 
dem Sofa oder der Werkbank liegen.

von Karl (Gast)


Lesenswert?

Egon D. schrieb:
> Die Aussage, der ich widersprochen habe, war aber:
> "Volltextsuche ist unverzichtbar", und das bedeutet
> in meinem Universum: Es geht in gar keinem Fall ohne,
> und das stimmt einfach nicht.

Zum Glück scheinst du nicht im selben Universum zu leben wie wir. 
Volltextsuche für verzichtbar zu halten ist ungefähr so wie Räder 
abzulehnen weil es ja vor der Erfindung des Rades auch mit Kufen ging.

von Der G. (Firma: schlechthin) (gastgeber)


Lesenswert?

Sigma schrieb:
> Man kann PDF-Dateien auch komprimieren, vor allem die enthaltenen
> Bilder. Dafür gibt es Tools

Tipps? Ich hab Samsung Easy Document Converter gefunden, das schafft 
400kb, convert 1MB, ocrmypdf 400kb. Das cuminas pdf in 300dpi Bilder 
aufgedröselt und neu verwurstet. Und DjvuSolo schafft 25KB!!! 
Unschlagbar. Das cuminas Enterprise läuft leider nicht(setup did not 
finish correctly), also kann ich die pseudo PDF Variante nicht testen.

: Bearbeitet durch User
von Percy N. (vox_bovi)


Lesenswert?

Der G. schrieb:
> Das cuminas Enterprise läuft leider nicht(setup did not finish
> correctly), also kann ich die pseudo PDF Variante nicht testen.

Den Satz habe ich verstanden. Könntest Du den Rest bitte auch noch in 
verständliches Deutsch konvertieren?

von herald (Gast)


Lesenswert?

Habt ihr einige Tips wie ich meine eigenen Bücher digitalisieren kann, 
sodass ich hinterher ein durchsuchbares PDF habe? Selbstverständlich 
soll das kosteneffizient sein, d.h. ohne sündhaft teuren Buchscanner. 
Normaler Flachbettscanner oder Smartphone mit Stativ sollte genügen.
Meine Bücher enthalten neben normalem Text auch Tabellen und Diagramme.

von Setzer (Gast)


Lesenswert?

> Ansonsten ist webp super für Scans oder Grafiken. Das Format ist ein
> ganzes Stück effizienter als png.

PNG ist sicher nicht mit dem Ziel entwickelt worden
das allestaugliche Universalformat zu sein.

Und WEBP? Ist das nicht eher ein Containerformat?
Kann z.B. Javascript enthalten um Dinge hinterruecks nachzuladen?
Wenn eines sicher ist, dann das ich "aktive" Bildformate
ueberhaupt nicht mag.
Egal wie "supereffizient" sie sind.

Aber ich kann mich auch irren.

von Egon D. (Gast)


Lesenswert?

Setzer schrieb:

> PNG ist sicher nicht mit dem Ziel entwickelt worden
> das allestaugliche Universalformat zu sein.

Es ist als Ablösung für das patentbelastete GIF entwickelt
worden, und diese Rolle als Bildformat für verlustlos
komprimierte Bilder füllt es m.E. sehr gut aus.

von Egon D. (Gast)


Lesenswert?

Sigma schrieb:

> Ansonsten ist webp super für Scans oder Grafiken.
> Das Format ist ein ganzes Stück effizienter als png.

Bitte nicht Äpfel mit Birnen vergleichen.
PNG komprimiert immer verlustlos; webp kann beides.

von Schlaumaier (Gast)


Lesenswert?

herald schrieb:
> Habt ihr einige Tips wie ich meine eigenen Bücher digitalisieren kann,
> sodass ich hinterher ein durchsuchbares PDF habe?

Normaler Drucker reicht i.d.R.  aber mach das Licht aus, bzw. dunkel.

Den Restschatten macht eine gute Scannersoftware im Buch-Scan-Modus weg. 
Dann das ganze durch eine OCR Jagen, und als "DOPPEL-PDF" abspeichern. 
Eine "Doppel-PDF" k.a. wie das offiziell heißt, zeigt die die Pixel an, 
und führt den erkannten Text im Hintergrund. Das hat den Vorteil das du 
vielleicht etwas nicht findest, aber auch keine Fehler der Texterkennung 
sichtbar sind.

Das ganze machen gute Scanner-Software die haben auch eine eingebaute 
OCR.

Hin + wieder findet man ältere Versionen für kleines Geld bei Pearl und 
Co.

Ich habe aber seit über 10 Jahren nicht mehr damit gearbeitet und habe 
damals auf der Firma eine "Spezial-Version" = Vollversion mit 
Geräte-Dongle  von ABBYY FineReader.

von Schlaumaier (Gast)


Lesenswert?

Nachtrag :

Lies dir mal die Artikel durch.

https://www.heise.de/download/product/freeocr-49486

https://www.chip.de/news/Die-besten-OCR-Programme-Gratis-Tools-zur-Texterkennung-in-PDFs_183490054.html

Unter Linux gibt es da auch nette Sachen. Aber die habe ich nur in der 
Zeitung gelesen, nie getestet.

von c-hater (Gast)


Lesenswert?

herald schrieb:

> Habt ihr einige Tips wie ich meine eigenen Bücher digitalisieren kann,
> sodass ich hinterher ein durchsuchbares PDF habe? Selbstverständlich
> soll das kosteneffizient sein, d.h. ohne sündhaft teuren Buchscanner.

Das Problem ist weniger die Software, das Problem ist wirklich die 
Hardware, also der "sündhaft teure Buchscanner". Ohne den geht's einfach 
nicht wirklich. Man braucht leider diese Hardware, um in überschaubarer 
Zeit Bücher in einer Qualität zu digitalisieren, die es der Software 
erlauben, aus diesen Scans in akzeptabler Zeit wirklich brauchbare 
Dokumente zu erzeugen.

> Normaler Flachbettscanner oder Smartphone mit Stativ sollte genügen.

Das kannste völlig knicken. Wer soll ein 500-Seiten Buch so aufblättern, 
dass da für alle 250 Doppelseiten ein brauchbarer Scan rauskommt und das 
auch noch in akzeptabler Zeit?

Tipp: Versuche das einfach mal mit eine 20-Seiten-Heftklammer-Broschüre 
(bei der du viele Probleme eines richtigen Buches nichtmal hast) und 
laß' eine gängige OCR darüber laufen. Das Ergebnis ist absolut 
ernüchternd...

von Percy N. (vox_bovi)


Lesenswert?

c-hater schrieb:
> Das kannste völlig knicken. Wer soll ein 500-Seiten Buch so aufblättern,
> dass da für alle 250 Doppelseiten ein brauchbarer Scan rauskommt und das
> auch noch in akzeptabler Zeit?

Wenn ich mich recht erinnere, hat Project Gutenberg mit Freiwilligen und 
distributed proofreading einen ganz schönen Haufen geschafft.

von Rolf M. (rmagnus)


Lesenswert?

Egon D. schrieb:
> Setzer schrieb:
>
>> PNG ist sicher nicht mit dem Ziel entwickelt worden
>> das allestaugliche Universalformat zu sein.
>
> Es ist als Ablösung für das patentbelastete GIF entwickelt
> worden, und diese Rolle als Bildformat für verlustlos
> komprimierte Bilder füllt es m.E. sehr gut aus.

Bis auf die fehlenden Animationen. Deshalb gab es mit MNG auch eine 
animierte Variante. Die wurde aber von Microsoft kaputt gemacht.

von Egon D. (Gast)


Lesenswert?

c-hater schrieb:

> Das Problem ist weniger die Software, das Problem ist
> wirklich die Hardware, also der "sündhaft teure
> Buchscanner". Ohne den geht's einfach nicht wirklich.
> Man braucht leider diese Hardware, um in überschaubarer
> Zeit Bücher in einer Qualität zu digitalisieren, die es
> der Software erlauben, aus diesen Scans in akzeptabler
> Zeit wirklich brauchbare Dokumente zu erzeugen.

Nun ja... lass' es mich so ausdrücken: Die Bücher, die ich
mit einem normalen Flachbettscanner digitalisiert habe,
kann ich als Graustufenbild völlig problemlos am Bildschirm
lesen.

Wenn die OCR-Software das nicht kann, dann ist plötzlich
der Scanner schuld...?!


>> Normaler Flachbettscanner oder Smartphone mit Stativ
>> sollte genügen.
>
> Das kannste völlig knicken. Wer soll ein 500-Seiten
> Buch so aufblättern, dass da für alle 250 Doppelseiten
> ein brauchbarer Scan rauskommt und das auch noch in
> akzeptabler Zeit?

Bei mir sind diese 250 Doppelseiten ziemlich genau
4 Stunden Arbeit. Ob das akzeptabel ist, liegt im Auge
des Betrachters -- bei einem speziellen antiquarischen
Fachbuch ist das für mich in Ordnung. Andere mögen das
anders sehen.


> [...] und laß' eine gängige OCR darüber laufen. Das
> Ergebnis ist absolut ernüchternd...

Ach. Und das liegt primär am Scanner ?

Das Kernproblem beim privaten Digitalisieren von
Büchern ist nicht primär die OCR. Das Kernproblem ist
die (automatische) Layoutanalyse und die rechnerische
Bildentzerrung.
Alles kein Hexenwerk, aber ich habe noch von keiner
freien Software gehört, die das kann.

von Egon D. (Gast)


Lesenswert?

Rolf M. schrieb:

>> [PNG] ist als Ablösung für das patentbelastete GIF
>> entwickelt worden, und diese Rolle als Bildformat
>> für verlustlos komprimierte Bilder füllt es m.E.
>> sehr gut aus.
>
> Bis auf die fehlenden Animationen.

Okay... das würde ich eher als Vorteil zählen... :)

von Rolf M. (rmagnus)


Lesenswert?

Egon D. schrieb:
> Okay... das würde ich eher als Vorteil zählen... :)

Naja, wie man's nimmt. Animiert wurde ja so oder so. Es hat nur dazu 
geführt, dass im Web damals für animierte Grafiken entweder weiter auf 
GIF mit seinen 8 Bit zurückgegriffen werden musste, was bescheiden 
aussah, oder das unsägliche Flash verwendet wurde mit seinen ganzen 
Sicherheitslücken.
MNG als brauchbarer Nachfolger für animierte GIFs wurde damals von 
praktisch allem unterstützt - außer von Microsoft Internet Explorer.

: Bearbeitet durch User
von Sigma (Gast)


Lesenswert?

Egon D. schrieb:
> Sigma schrieb:
>
>> Ansonsten ist webp super für Scans oder Grafiken.
>> Das Format ist ein ganzes Stück effizienter als png.
>
> Bitte nicht Äpfel mit Birnen vergleichen.
> PNG komprimiert immer verlustlos; webp kann beides.

png ist verlustbehaftet!
webp benötigt für die gleiche Grafikqualität weniger Speicherplatz, bei 
reinen schwarz-weiß Dokumenten und bei enthaltenen Fotos sowieso.

von Sigma (Gast)


Lesenswert?

Egon D. schrieb:
>>> Normaler Flachbettscanner oder Smartphone mit Stativ
>>> sollte genügen.
>>
>> Das kannste völlig knicken. Wer soll ein 500-Seiten
>> Buch so aufblättern, dass da für alle 250 Doppelseiten
>> ein brauchbarer Scan rauskommt und das auch noch in
>> akzeptabler Zeit?
>
> Bei mir sind diese 250 Doppelseiten ziemlich genau
> 4 Stunden Arbeit. Ob das akzeptabel ist, liegt im Auge
> des Betrachters -- bei einem speziellen antiquarischen
> Fachbuch ist das für mich in Ordnung. Andere mögen das
> anders sehen.

Du brauchst eine Minute für eine Doppelseite???

umblättern...klick...umblättern...klick...

Das geht doch ganz schnell. Ich habe letztenz eine 50-Seiten Norm 
redigitalisiert mit einem PDF-Scanner am Smartphone, ging sehr schnell.

von Schlaumaier (Gast)


Lesenswert?

Egon D. schrieb:
> Nun ja... lass' es mich so ausdrücken: Die Bücher, die ich
> mit einem normalen Flachbettscanner digitalisiert habe,
> kann ich als Graustufenbild völlig problemlos am Bildschirm
> lesen.

Kann ich nur bestätigen.

Es gibt dabei nämlich überhaupt kein Problem dabei was die Software 
nicht beheben kann.

Wenn ich die Scanner-Software in den BUCH-Modus stelle, DAS IST WICHTIG, 
dann macht sie 2 Dinge. Buchmodus deshalb weil man ja normal das haben 
will was man hat, i.d.R. ohne das die Software das verändert. Weshalb 
allein mein Twain-Treiber ca. 20 Einstellungen hat mit jede Menge 
Varianten.

1. Sie führt eine Glättung der Seite durch, also macht den Bauch/Bogen 
heraus, der bei dicken Büchern auftritt.

2. Sie macht einen gleichen Hintergrundkontrast. Das ist wichtig da ein 
Buch in der Mitte eine Beule hat, und es Fremdlicht durch diesen Knick 
kommt.


Und nur so nebenbei. Ich habe mir ein Visitenkarten-Scanner bei E-Bay 
für 15 Euro gekauft (Modellname D-600). Ich scanne damit Kassenbons (nur 
die mit Karte bezahlt o. die mit Garantie-Sachen) da die blauen Bons 
jede Menge Nachteile haben.  Die Software dazu, regelt alle Probleme. 
Selbst wenn der krum+schief eingezogen wird oder falsch herum , ist das 
0 Problem. Er erscheint gerade und richtig herum als JPG (eingestellt) 
auf den Bildschirm/Festplatte.

Und es gibt noch 2 andere Modell-Arten Bücher zu scannen.

Typ 1 : Der "Von Oben" Scanner. Da liegt das Buch offen herum,und eine 
Kamera macht den Scann via "Stativ" .

Typ 2 : Das Handy. Ich habe schon Apps benutzt, die ein PDF machen, wenn 
ich aus ein Buch eine Seite abscanne, mit der Handy-Kamera.

Leider sind diese Apps nicht gerade preiswert. Und nach 10 Scans i.d.R. 
wollen die Programmierer Geld sehen.

Und fast jede gute Photosoftware ist in der Lange Bäuche und Schatten 
aus einen Bild AUTOMATISCH zu entfernen.

Ergo.  Das Problem sitzt vor den Gerät. Es kann mit der Technik nicht 
umgehen.

Aber zu seiner Entschuldigung. Richtig Scannen ist eine Kunst. Und ich 
besitze auch noch ein DIA-Scanner. Und ein GUTER sehr preiswerter 
Foto-Scanner ist in Planung. Ich warte nur bis es den bei Ebay gibt. 150 
Euro o.m. sind mir deutlich zu viel.

Und ich scanne inzwischen fast alles was ich länger wie 2 Wochen 
aufbewahren muss. Scannen, in meinen selbst geschriebene 
Dokumentenverwaltung einlesen, und das Papier in eine Kiste und ab in 
den Keller. Ich habe in der Wohnung kein Platz für so ein Mist.

von Abdul K. (ehydra) Benutzerseite


Lesenswert?

Und das ist natürlich alles supergeheime Software...

---
Sumatrapdf kann die meisten der obig genannten Formate öffnen. 
Allerdings unterstützt es keine Formulare in PDF.

Kissenentzerrung macht MS Lens auf Android ganz gut.

Schon lange kein djvu mehr erzeugt. Eigentlich mag ich es für 
Bücherscans.

Was fehlt noch, ist eine gescheite Integration in eine globale 
Suchfunktion.

von Jemand (Gast)


Lesenswert?

Sigma schrieb:
> png ist verlustbehaftet!

[citation needed]

von Rolf M. (rmagnus)


Lesenswert?

Jemand schrieb:
> Sigma schrieb:
>> png ist verlustbehaftet!
>
> [citation needed]

Da muss man nix citen. Es ist Blödsinn.

von Sigma (Gast)


Lesenswert?

Rolf M. schrieb:
> Jemand schrieb:
>
>> Sigma schrieb:
>>> png ist verlustbehaftet!
>>
>> [citation needed]
>
> Da muss man nix citen. Es ist Blödsinn.

Vielleicht ist png selbst nicht verlustbehaftet, aber jeder brauchbare 
png-Exporter bietet an die Bildqualität zugunsten der Dateigröße zu 
senken.

von oszi40 (Gast)


Lesenswert?

Der G. schrieb:
> Dateiformat ist unglaublich.

Bleibt zu hoffen , dass Eure Daten in diesen Formaten in 20 Jahren noch 
einer lesen und durchsuchen kann. Bei einer datei.txt wäre ich 
optimistischer etwas zu finden.

von Egon D. (Gast)


Lesenswert?

Sigma schrieb:

> Du brauchst eine Minute für eine Doppelseite???

Ich nicht -- der Scanner braucht die Minute. Etwa 40s
dauert der eigentliche Scan, und knapp 20s der Rücklauf
des Schlittens. In diesen 20s kann man das Buch herunter-
nehmen, die Seite umblättern, und das Buch wieder auf
den Scanner packen.


> Das geht doch ganz schnell. Ich habe letztenz eine
> 50-Seiten Norm redigitalisiert mit einem PDF-Scanner
> am Smartphone, ging sehr schnell.

Ja, sicher... wenn man so eine V-förmige Halterung und
zwei gute Kameras verwenden würde, käme man sicherlich
auf 15s je Doppelseite herunter.
Das hat aber im Moment keine Priorität für mich; die
Schans vom Flachbettscanner sind zwar qualitativ sehr
gut, aber die Datenflut ist doch beträchtlich. Mein
Problem ist die Verarbeitung (inclusive Backup).

von Egon D. (Gast)


Lesenswert?

Schlaumaier schrieb:

> Es gibt dabei nämlich überhaupt kein Problem dabei
> was die Software nicht beheben kann.

Das stimmt wohl, aber...

> 1. Sie führt eine Glättung der Seite durch, also macht
> den Bauch/Bogen heraus, der bei dicken Büchern auftritt.
>
> 2. Sie macht einen gleichen Hintergrundkontrast. Das ist
> wichtig da ein Buch in der Mitte eine Beule hat, und es
> Fremdlicht durch diesen Knick kommt.

...mir ist keine freie Linux-Software bekannt, die diese
beiden Automatik-Funktionen anbietet.

von Karl (Gast)


Lesenswert?

Sigma schrieb:
> Vielleicht ist png selbst nicht verlustbehaftet, aber jeder brauchbare
> png-Exporter bietet an die Bildqualität zugunsten der Dateigröße zu
> senken.

png ist nicht verlustbehaftet und man kann auch keine Bildqualität 
einstellen. Den Kompressionsfaktor kann man variieren. Das ändert aber 
nichts am Bildinhalt, sondern nur die Geschwindigkeit mit der die Datei 
erstellt wird. Leute das sind doch Computergrundlagen, die jedes Kind 
kennt. Die Bildqualität kann man mittels Kompressionsfaktor nur bei 
verlustbehafteten Formaten wie beispielsweise jpg einstellen.

von Egon D. (Gast)


Lesenswert?

Sigma schrieb:

> Vielleicht ist png selbst nicht verlustbehaftet, aber
> jeder brauchbare png-Exporter bietet an die Bildqualität
> zugunsten der Dateigröße zu senken.

Ich verwende doch keinen vernünftigen 600dpi-Scanner, um
dann die Rohdaten verlustbehaftet zu speichern. Das wäre
doch wirklich saudämlich...

Nein, die Rohdateien werden erstmal mit bibliographischen
Angaben versehen und verlustlos als PNG gespeichert. Dann
kommt alles weitere...

von Jemand (Gast)


Lesenswert?

Egon D. schrieb:
> Ich verwende doch keinen vernünftigen 600dpi-Scanner, um
> dann die Rohdaten verlustbehaftet zu speichern. Das wäre
> doch wirklich saudämlich...
>
> Nein, die Rohdateien werden erstmal mit bibliographischen
> Angaben versehen und verlustlos als PNG gespeichert. Dann
> kommt alles weitere...

Ich sehe zwar keinen tangiblen Vorteil darin, Speicher mit 
Sensorrauschen vollzumüllen, aber wenn es dich glücklich macht, steht es 
dir natürlich frei das zu tun.

von Sigma (Gast)


Lesenswert?

Egon D. schrieb:
> Nein, die Rohdateien werden erstmal mit bibliographischen
> Angaben versehen und verlustlos als PNG gespeichert.

Lol, dann beschwer dich nicht über die "Datenflut" und freu dich dass 
der eine Pixel rechts am Seitenrand um ein Millionstel näher am original 
Weißton aus dem Scanneroutput dran ist.

von Egon D. (Gast)


Lesenswert?

Jemand schrieb:

> Ich sehe zwar keinen tangiblen Vorteil darin, Speicher
> mit Sensorrauschen vollzumüllen,

Den sehe ich auch nicht.


> aber wenn es dich glücklich macht, steht es dir
> natürlich frei das zu tun.

???

Der Sensor rauscht (fast) nicht; das habe ich untersucht.

Den meisten Speicherplatz nimmt die Struktur des Papiers ein.
Wenn man die unterdrückt, verliert man aber leider auch die
Möglichkeit, die Bildschärfe nachträglich rechnerisch mittels
Dekonvolution zu verbessern.

Es ist alles nicht ganz so einfach, wie es scheint...

von René H. (mumpel)


Lesenswert?

DJVU entspricht nicht der DSGVO. Schon deshalb wird PDF bleiben.

von Abdul K. (ehydra) Benutzerseite


Lesenswert?

Erklär das mal genauer.

von René H. (mumpel)


Lesenswert?

Abdul K. schrieb:
> Erklär das mal genauer.

Sorry, meinte eIDAS. Die eIDAS-Verordnung fordert manipulationssichere 
und revisionssichere Dateiformate. Das kann m.W. derzeit nur PDF/A, da 
lassen sich nachträgliche Änderungen nachvollziehen.

: Bearbeitet durch User
von Schlaumaier (Gast)


Lesenswert?

Egon D. schrieb:
> ...mir ist keine freie Linux-Software bekannt, die diese
> beiden Automatik-Funktionen anbietet.

Es gab vor einiger Zeit (schätze 6 Monate) mal ein ähnlichen Thread wo 
auch über das Thema gesprochen wurde. Da hat einer der Linux-Leute eine 
Menge Programme genannt.

Sorry. Aber ich bin in Sachen Linux der pure Anfänger. Und das traue ich 
mich nicht irgendwelche Tipps zu geben.

Aber selbst gegoogelt wurde mir Paperwork angezeigt.

https://www.heise.de/download/product/paperwork-92884

https://www.linux-bibel-oesterreich.at/viewtopic.php?t=178

Vielleicht mal testen ? Ist doch for-free. Also testen, schauen was es 
kann und notfalls ein anderes System nehmen.

Es scheint mir sogar mehr als "nur einen Scanner-Software" zu sein.

von Egon D. (Gast)


Lesenswert?

René H. schrieb:

> DJVU entspricht nicht der DSGVO. Schon deshalb wird
> PDF bleiben.

Naja, Manipulations- und Revisionssicherheit ist ja auch
nicht in allen Anwendungsfällen notwendig.

Trotzdem sehe ich den Nutzen eines speziellen Dateiformates
für gescannte Daten als sehr überschaubar an. Der Xerox-
Scanner-Bug hat gezeigt, dass man das Weglassen "irrelevanter"
Details besser einer spezialisierten Software überlässt und
nicht einem verlustbehafteten Kompressionsalgorithmus, der
die Bedeutung der durchlaufenden Daten nicht erkennt.

von René H. (mumpel)


Lesenswert?

Egon D. schrieb:
> Naja, Manipulations- und Revisionssicherheit ist ja auch
> nicht in allen Anwendungsfällen notwendig.

Es gibt sie aber. Deshalb ist schon die Frage, weshalb es noch PDF gibt, 
m.E. eine dumme Frage.

von Frank E. (Firma: Q3) (qualidat)


Lesenswert?

Sofern die (Fach-) Bücher ihren Wert nur über ihren Inhalt definieren, 
also im Gegensatz z.B. zu einem historischen Buch mit Ledereinband oder 
einem Bildband ... geht das Scannen ganz Einfach: Buch unter den 
Planschneider (Rücken weg) und dann ruck-fix durch den 
Duplex-Einzugsscanner.

Ein HP Scanjet 7000n macht 40 Blatt (80 Seiten) in der Minute, incl. OCR 
und PDF/A ...

von Egon D. (Gast)


Lesenswert?

René H. schrieb:

> Egon D. schrieb:
>> Naja, Manipulations- und Revisionssicherheit ist ja
>> auch nicht in allen Anwendungsfällen notwendig.
>
> Es gibt sie aber.

Unbestritten.


> Deshalb ist schon die Frage, weshalb es noch PDF gibt,
> m.E. eine dumme Frage.

Es ging mir aber überhaupt nicht um die -- offensichtlich
bescheuerte -- Frage, warum es PDF gibt, oder warum es
eingesetzt wird.

Es ging mir um die -- m.E. völlig legitime -- Frage, ob ein
spezielles Dateiformat für gescannte Daten sinnvoll ist.
Meiner Meinung nach lautet die Antwort: "Nein".

von René H. (mumpel)


Lesenswert?

Frank E. schrieb:
> HP Scanjet 7000n

Wer kann/will sich den leisten? Im Internet werden dafür unverschämt 
hohe Preise aufgerufen. 😉

von Abdul K. (ehydra) Benutzerseite


Lesenswert?

Also ich habe im Programm "HP Scan" die OCR abgeschaltet, da sie eh nur 
überwiegend Müll produziert. Da wundert mich obige Aussage zu dem 
HP-Gerät doch sehr.

Außerdem braucht das Programm ewig zum Starten.

Billig ist en HP377dw nun auch nicht wirklich.

Das Gerät finde ich ansich ok, aber die HP-Software für den PC ist 
einfach nur gruselig.

von Schlaumaier (Gast)


Lesenswert?

Abdul K. schrieb:
> Das Gerät finde ich ansich ok, aber die HP-Software für den PC ist
> einfach nur gruselig.

Das ist die Luxus-Spionage-Software schon seit es Parallel-Anschluss und 
deren Drucker gibt. Was die schon damals alles an Daten an HP geschickt 
haben, war sogar mal ein großer Artikel in der Chip wert. Zu einer Zeit 
als "Nach-Hause-Petzen" noch sehr unmodernwar.

Und die Treiber waren damals schon ekelhaft langsam. Weshalb ich schon 
damals immer den Windows eigenen Treiber installiert habe. Besonders für 
Laser. War allerdings zu einer Zeit als man noch 2000 DM für ein 
tonnenschweren externen Scanner ausgeben hat. ;)

Und was auch ein Grund ist, wieso ich mir nie HP Teile kaufe. Da weiß 
ich nie ob ich Billig-Ware oder Qualität bekomme.

Hab mal ein HP-Pavillion Rechner (AMD-2000 CPU /XP) gekauft, und erst 
durch ein Anruf bei der Hotline-Nr die in Windows hinterlegt war, 
erfahren, das es eine Medion-Kiste ist.

Verarschen kann ich mich allein. Seit dem ist HP für mich gestrichen. 
Und ich habe in meiner Zeit min. 100 Leute von HP abgeraten deshalb. Und 
die haben ALLE auf mich gehört. Grund : Andere Hersteller haben auch 
schöne Töchter. Und besonders in Sachen Drucker ist Canon + Epson + 
Brother in mein Augen besser.

von Rick (Gast)


Lesenswert?

Alle HP Drucker die ich kenne funktionieren einwandfrei unter Linux, was 
zumindest in der Vergangenheit leider nicht bei allen Herstellern der 
Fall war. Ein Grund für mich, bei HP zu bleiben.

von Percy N. (vox_bovi)


Lesenswert?

Schlaumaier schrieb:
> Das ist die Luxus-Spionage-Software schon seit es Parallel-Anschluss und
> deren Drucker gibt. Was die schon damals alles an Daten an HP geschickt
> haben, war sogar mal ein großer Artikel in der Chip wert. Zu einer Zeit
> als "Nach-Hause-Petzen" noch sehr unmodernwar.

Seltsam, damit hatte ich noch nie Probleme, was allerdings daran liegen 
könnte, dass mein PC, der zum Drucken verwendet wird, nicht am Netz 
hängt.

Aktuell gibt es aber auch Spaß:

https://amp2.handelsblatt.com/technik/it-tk/it-sicherheit-gravierende-sicherheitsluecken-in-buero-druckern-von-hp-entdeckt/27848046.html

Schlaumaier schrieb:
> Und ich habe in meiner Zeit min. 100 Leute von HP abgeraten deshalb. Und
> die haben ALLE auf mich gehört.

Boah ey, Du bist ja voll die Influenza!

: Bearbeitet durch User
von Schlaumaier (Gast)


Lesenswert?


von Εrnst B. (ernst)


Lesenswert?

Schlaumaier schrieb:
> Hier mal was zu lesen.

Hier nochwas, etwas mehr OnTopic:

https://cve.mitre.org/cgi-bin/cvekey.cgi?keyword=djvu
https://cve.mitre.org/cgi-bin/cvename.cgi?name=CVE-2021-22204

Wer braucht Sandboxed Javascript im PDF, wenn er auch Bash in DJVU haben 
kann...

Hört sich nach einem lange gefixten Problem an, aber:

https://www.cysrc.com/blog/virus-total-blog
https://heise.de/-7065048

:)

: Bearbeitet durch User
von Der G. (Firma: schlechthin) (gastgeber)


Lesenswert?

Image magick -deskhew kann scans ausrichten, aber Bögen entfernen hab 
ich nur bei scantailor gesehen.

Habe jetzt den jbig2 encoder entdeckt. Der kann von ocrmypdf genutzt 
werden, das Resultat ist GENAUSO gut / klein wie das hc pdf von cuminas! 
Habe dazu das hc pdf genommen. Hier der verwendete bash code:

convert -density 300 hc_pdf.pdf p%04d.jpg
for i in p*.jpg; do convert $i -threshold 55000 ${i%jpg}pbm; done
for i in p*.pbm; do ocrmypdf -l eng --jbig2-lossy --image-dpi 300 $i 
${i%pbm}pdf; done
pdfunite p000?.pdf unite.pdf

Es ist ziemlich ähnlich wie djvu das macht. Das PDF ist 60kb groß.

Sehr interessant welche Sicherheitslücken mit djvu im Zusammenhang 
standen und stehen, also lieber nichts unvertrauenswürdiges im djvu 
Format öffnen. Die Sicherheit ist im cyber cyber cyber space ja so eine 
Sache. Als die Videos von Semptervideo noch nicht als BÖÖÖÖSE von 
Youtube erkannt wurden, da hat er gezeigt wie einfach Script Kiddies 
Viren einfach verschlüsseln können und dabei Virenscanner umgehen. Also 
Scannen und daran glauben dass es ok ist ist keine gute Idee. Wenn man 
jetzt bedenkt dass es bestimmte Länder gibt die damit ihre Kohle 
scheffeln wird einem komisch.

: Bearbeitet durch User
von Frank E. (Firma: Q3) (qualidat)


Lesenswert?

René H. schrieb:
> Frank E. schrieb:
>> HP Scanjet 7000n
>
> Wer kann/will sich den leisten? Im Internet werden dafür unverschämt
> hohe Preise aufgerufen. 😉

Ups ... tatsächlich. Wir haben in der Firma vor ca. 1,5 Jahren 2 Stück 
davon bei einem Händler in Berlin gebraucht gekauft, zu jeweils ca. 
350,- Und die schnurren bis heute einwandfrei ... Scheiss 
Preissteigerung.

Ich würde immer mal wieder danach suchen, die Dinger sind tatsächlich 
genial, wenn man wirklich viel zu scannen hat. Das Besondere daran: Ein 
geradliniger Papierdurchlauf sorgt für sehr seltene Staus/Stopper.

Die Verarbeitung der Jobs erfolgt vollkommen autark, die fertigen PDF/A 
werden in einer Netzwerkfreigabe oder auf USB abgelegt.

Bei Ebay gibts derzeit zwei zu 599,- aus Belgien ...

: Bearbeitet durch User
von Sigma (Gast)


Lesenswert?

Der G. schrieb:
> Image magick -deskhew kann scans ausrichten, aber Bögen entfernen
> hab ich nur bei scantailor gesehen.
> Habe jetzt den jbig2 encoder entdeckt. Der kann von ocrmypdf genutzt
> werden, das Resultat ist GENAUSO gut / klein wie das hc pdf von cuminas!
> Habe dazu das hc pdf genommen. Hier der verwendete bash code:
> convert -density 300 hc_pdf.pdf p%04d.jpg
> for i in p*.jpg; do convert $i -threshold 55000 ${i%jpg}pbm; done
> for i in p*.pbm; do ocrmypdf -l eng --jbig2-lossy --image-dpi 300 $i
> ${i%pbm}pdf; done
> pdfunite p000?.pdf unite.pdf
> Es ist ziemlich ähnlich wie djvu das macht. Das PDF ist 60kb groß.

Gibts das zufällig auch als fertiges Tool mit GUI für macOS, also wo ich 
einfach die PDF-Datei draufziehen kann und dann komprimiert er das?

von Der G. (Firma: schlechthin) (gastgeber)


Lesenswert?

jbig2 jb2 ist bestimmt in Software enthalten, z.B. von Buchscannern. Da 
hilft entweder ein Blick in die Specs, oder aber man vergleicht einfach 
die Dateigröße. Es ist aber bitonal also schwarz weiß. DJVU kann auch 
Farbe.

Das hier ist eleganter als das oben:
convert -deskew 999 *.JPG %03d.jpg
jbig2 -s -p -v *.jpg && pdf.py output >out.pdf
rm output.0??? output.sym
ocrmypdf -l eng --jbig2-lossy -cdir out.pdf out-tex.pdf

: Bearbeitet durch User
Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.