Top-Themen

AppleEntwicklungHardwareInternetLinuxMicrosoftMultimediaNetzwerkeOff TopicSicherheitSonstige SystemeVirtualisierungWeiterbildungZusammenarbeit

Aktuelle Themen

Administrator.de FeedbackApache ServerAppleAssemblerAudioAusbildungAuslandBackupBasicBatch & ShellBenchmarksBibliotheken & ToolkitsBlogsCloud-DiensteClusterCMSCPU, RAM, MainboardsCSSC und C++DatenbankenDatenschutzDebianDigitiales FernsehenDNSDrucker und ScannerDSL, VDSLE-BooksE-BusinessE-MailEntwicklungErkennung und -AbwehrExchange ServerFestplatten, SSD, RaidFirewallFlatratesGoogle AndroidGrafikGrafikkarten & MonitoreGroupwareHardwareHosting & HousingHTMLHumor (lol)Hyper-VIconsIDE & EditorenInformationsdiensteInstallationInstant MessagingInternetInternet DomäneniOSISDN & AnaloganschlüsseiTunesJavaJavaScriptKiXtartKVMLAN, WAN, WirelessLinuxLinux DesktopLinux NetzwerkLinux ToolsLinux UserverwaltungLizenzierungMac OS XMicrosoftMicrosoft OfficeMikroTik RouterOSMonitoringMultimediaMultimedia & ZubehörNetzwerkeNetzwerkgrundlagenNetzwerkmanagementNetzwerkprotokolleNotebook & ZubehörNovell NetwareOff TopicOpenOffice, LibreOfficeOutlook & MailPapierkorbPascal und DelphiPeripheriegerätePerlPHPPythonRechtliche FragenRedHat, CentOS, FedoraRouter & RoutingSambaSAN, NAS, DASSchriftartenSchulung & TrainingSEOServerServer-HardwareSicherheitSicherheits-ToolsSicherheitsgrundlagenSolarisSonstige SystemeSoziale NetzwerkeSpeicherkartenStudentenjobs & PraktikumSuche ProjektpartnerSuseSwitche und HubsTipps & TricksTK-Netze & GeräteUbuntuUMTS, EDGE & GPRSUtilitiesVB for ApplicationsVerschlüsselung & ZertifikateVideo & StreamingViren und TrojanerVirtualisierungVisual StudioVmwareVoice over IPWebbrowserWebentwicklungWeiterbildungWindows 7Windows 8Windows 10Windows InstallationWindows MobileWindows NetzwerkWindows ServerWindows SystemdateienWindows ToolsWindows UpdateWindows UserverwaltungWindows VistaWindows XPXenserverXMLZusammenarbeit

OCR-Software für Archivierung

Frage Sicherheit Tipps & Tricks

Mitglied: middletown

middletown (Level 1) - Jetzt verbinden

24.11.2011, aktualisiert 14:57 Uhr, 2718 Aufrufe, 2 Kommentare

Hallo Ihr Experten,

Ich arbeite mit Mac OSX 10.6 und möchte für ein Archiv ePaper (als Endprodukt) von Büchern erstellen, für die keine Druckunterlagen mehr existieren. Die Buchseiten werden eingescant, von diesen Scans erstelle ich mit einer OCR-Software ein nach Text durchsuchbares pdf (Bild-Text, d.h. die Originalansicht der Buchseite bleibt erhalten, der Text liegt unsichtbar unter dem Bild), das ich für die spätere Erstellung des ePapers benötige. Soweit funktioniert alles, auch die Suchfunktion. Dem Kunden liegt verständlicherweise daran, das die Texte fehlerfrei eingelesen sind, und hier beginnt das Problem. Den eingelesenen, durchsuchbaren Text kann man ja aus dem pdf kopieren, in ein Dokument einfügen und auf Richtigkeit prüfen. Sollten jetzt Einlesefehler auftauchen, könnte man sie korrigieren und müsste den korrigierten Text praktisch wieder in das pdf (Bild-Text) einbinden. Aber eben das ist bei keiner mir bekannten OCR- oder sonstigen Software möglich, d.h. ich kann zwar Einlesefehler ermitteln, die m.E. bei jeder OCR Software auftauchen, diese aber nicht im durchsuchbaren pfd korrigieren. Und wenn man bei einem Archivbestand mit Index und Suchfunktion arbeitet, muss natürlich der eingelesene Text fehlerfrei sein.
Vielleicht kann mir jemand einen Tipp in Sachen Software oder in anderen Bereichen geben, wie dieses Problem zu lösen ist, da sonst leider ein sehr schönes Projekt zu scheitern droht.
Ich freue mich auf konstruktive Antworten und Ratschläge – möglicherweise kann man ja einen völlig anderen Weg gehen, der bei der gleichen Zielsetzung endet.
Mitglied: NetWolf
24.11.2011 um 22:21 Uhr
Moin Moin,

Eine Bitte: Es wäre nett, wenn du wenigstens ab und zu die Enter-Taste für einen Absatz betätigen könntest. Es erleichtert das Lesen deines Beitrages. Danke

Zum Verständnis: eine PDF-Datei ist das Endprodukt (zumindest war es mal so gedacht) also der elektronische "Ausdruck" eines Druckers!
Immer wieder lese ich wie Menschen krampfhaft versuchen eine PDF - Datei zu manipulieren, statt die Änderung am Original vorzunehmen und eine neue PDF zu erzeugen.

Du hast ein OCR-Programm, das erzeugt eine Textdatei. Super, dann nutze diese Textdatei für die Kontrolle. Was willst du mehr?
Wenn du dann noch die Grafik der Buchseite hast, füge diese hinterher zusammen um dann eine neue PDF daraus zu machen.

OCR-Programme: jeder Schriftsteller hat einen Lektor, so sollte es auch bei einem OCR-Programm sein. Also komplett alles durchlesen und prüfen als Mensch!

Grüße aus Rostock
Wolfgang
(Netwolf)
Bitte warten ..
Mitglied: C.R.S.
25.11.2011 um 19:06 Uhr
Hallo,

die Bearbeitung des verborgenen Textes geht auch in einem PDF-Editor nur bedingt. Z.B. in Acrobat arbeitet man zunächst blind, weil der Text nicht sichtbar gemacht wird. Ein Heraus- und Hineinkopieren wäre wegen der Textorientierung nur zeilenweise möglich. Dadurch ist dieses Vorgehen auch nur bedingt sinnvoll, da beim durchsuchbaren Bild ja eine Auswahl anhand des Bildes möglich sein soll, sich der Text je nach korrigiertem Fehler aber verschiebt.
Du solltest das Projekt meines Erachtens so lange im OCR-Programm verwalten, bis alle Fehler korrigiert sind, und erst dann in PDF exportieren. Ich fürchte nur anhand der Beschreibung, dass ihr kein "vernünftiges" OCR-Programm verwendet.

Grüße
Richard
Bitte warten ..
Ähnliche Inhalte
Windows Netzwerk
gelöst Administratorrechte an Benutzer für Ausführung bestimmter Software vergeben (5)

Frage von Graven zum Thema Windows Netzwerk ...

Schulung & Training
Software wie Evernote zum lernen und vermerken (9)

Frage von Azubine zum Thema Schulung & Training ...

Monitoring
Monitoring Software gesucht (20)

Frage von MichiBLNN zum Thema Monitoring ...

Neue Wissensbeiträge
RedHat, CentOS, Fedora

Fedora, RedHat, Centos: DNS-Search Domain setzen

(2)

Tipp von Frank zum Thema RedHat, CentOS, Fedora ...

Drucker und Scanner

Samsung SL-M4025ND, firmware update und (kompatible) Tonerkassetten

(1)

Erfahrungsbericht von markus-1969 zum Thema Drucker und Scanner ...

Router & Routing

PfSense auf Supermicro Intel Xeon D-15x8 SoC Bare Bone

Tipp von Dobby zum Thema Router & Routing ...

Heiß diskutierte Inhalte
Windows 10
Windows für Privatanwender "nicht mehr handhabbar" (26)

Frage von FA-jka zum Thema Windows 10 ...

LAN, WAN, Wireless
Brauche Hilfe: Mit (schnellem) WLAN Strecke überbrücken (23)

Frage von pierrehansen zum Thema LAN, WAN, Wireless ...

Basic
Programmierung von Windows Programmen (10)

Frage von Ghost108 zum Thema Basic ...