middletown
Goto Top

OCR-Software für Archivierung

Hallo Ihr Experten,

Ich arbeite mit Mac OSX 10.6 und möchte für ein Archiv ePaper (als Endprodukt) von Büchern erstellen, für die keine Druckunterlagen mehr existieren. Die Buchseiten werden eingescant, von diesen Scans erstelle ich mit einer OCR-Software ein nach Text durchsuchbares pdf (Bild-Text, d.h. die Originalansicht der Buchseite bleibt erhalten, der Text liegt unsichtbar unter dem Bild), das ich für die spätere Erstellung des ePapers benötige. Soweit funktioniert alles, auch die Suchfunktion. Dem Kunden liegt verständlicherweise daran, das die Texte fehlerfrei eingelesen sind, und hier beginnt das Problem. Den eingelesenen, durchsuchbaren Text kann man ja aus dem pdf kopieren, in ein Dokument einfügen und auf Richtigkeit prüfen. Sollten jetzt Einlesefehler auftauchen, könnte man sie korrigieren und müsste den korrigierten Text praktisch wieder in das pdf (Bild-Text) einbinden. Aber eben das ist bei keiner mir bekannten OCR- oder sonstigen Software möglich, d.h. ich kann zwar Einlesefehler ermitteln, die m.E. bei jeder OCR Software auftauchen, diese aber nicht im durchsuchbaren pfd korrigieren. Und wenn man bei einem Archivbestand mit Index und Suchfunktion arbeitet, muss natürlich der eingelesene Text fehlerfrei sein.
Vielleicht kann mir jemand einen Tipp in Sachen Software oder in anderen Bereichen geben, wie dieses Problem zu lösen ist, da sonst leider ein sehr schönes Projekt zu scheitern droht.
Ich freue mich auf konstruktive Antworten und Ratschläge – möglicherweise kann man ja einen völlig anderen Weg gehen, der bei der gleichen Zielsetzung endet.

Content-Key: 176777

Url: https://administrator.de/contentid/176777

Printed on: April 25, 2024 at 17:04 o'clock

Member: NetWolf
NetWolf Nov 24, 2011 at 21:21:50 (UTC)
Goto Top
Moin Moin,

Eine Bitte: Es wäre nett, wenn du wenigstens ab und zu die Enter-Taste für einen Absatz betätigen könntest. Es erleichtert das Lesen deines Beitrages. Danke

Zum Verständnis: eine PDF-Datei ist das Endprodukt (zumindest war es mal so gedacht) also der elektronische "Ausdruck" eines Druckers!
Immer wieder lese ich wie Menschen krampfhaft versuchen eine PDF - Datei zu manipulieren, statt die Änderung am Original vorzunehmen und eine neue PDF zu erzeugen.

Du hast ein OCR-Programm, das erzeugt eine Textdatei. Super, dann nutze diese Textdatei für die Kontrolle. Was willst du mehr?
Wenn du dann noch die Grafik der Buchseite hast, füge diese hinterher zusammen um dann eine neue PDF daraus zu machen.

OCR-Programme: jeder Schriftsteller hat einen Lektor, so sollte es auch bei einem OCR-Programm sein. Also komplett alles durchlesen und prüfen als Mensch!

Grüße aus Rostock
Wolfgang
(Netwolf)
Member: C.R.S.
C.R.S. Nov 25, 2011 at 18:06:05 (UTC)
Goto Top
Hallo,

die Bearbeitung des verborgenen Textes geht auch in einem PDF-Editor nur bedingt. Z.B. in Acrobat arbeitet man zunächst blind, weil der Text nicht sichtbar gemacht wird. Ein Heraus- und Hineinkopieren wäre wegen der Textorientierung nur zeilenweise möglich. Dadurch ist dieses Vorgehen auch nur bedingt sinnvoll, da beim durchsuchbaren Bild ja eine Auswahl anhand des Bildes möglich sein soll, sich der Text je nach korrigiertem Fehler aber verschiebt.
Du solltest das Projekt meines Erachtens so lange im OCR-Programm verwalten, bis alle Fehler korrigiert sind, und erst dann in PDF exportieren. Ich fürchte nur anhand der Beschreibung, dass ihr kein "vernünftiges" OCR-Programm verwendet.

Grüße
Richard