Top-Themen

AppleEntwicklungHardwareInternetLinuxMicrosoftMultimediaNetzwerkeOff TopicSicherheitSonstige SystemeVirtualisierungWeiterbildungZusammenarbeit

Aktuelle Themen

Administrator.de FeedbackApache ServerAppleAssemblerAudioAusbildungAuslandBackupBasicBatch & ShellBenchmarksBibliotheken & ToolkitsBlogsCloud-DiensteClusterCMSCPU, RAM, MainboardsCSSC und C++DatenbankenDatenschutzDebianDigitiales FernsehenDNSDrucker und ScannerDSL, VDSLE-BooksE-BusinessE-MailEntwicklungErkennung und -AbwehrExchange ServerFestplatten, SSD, RaidFirewallFlatratesGoogle AndroidGrafikGrafikkarten & MonitoreGroupwareHardwareHosting & HousingHTMLHumor (lol)Hyper-VIconsIDE & EditorenInformationsdiensteInstallationInstant MessagingInternetInternet DomäneniOSISDN & AnaloganschlüsseiTunesJavaJavaScriptKiXtartKVMLAN, WAN, WirelessLinuxLinux DesktopLinux NetzwerkLinux ToolsLinux UserverwaltungLizenzierungMac OS XMicrosoftMicrosoft OfficeMikroTik RouterOSMonitoringMultimediaMultimedia & ZubehörNetzwerkeNetzwerkgrundlagenNetzwerkmanagementNetzwerkprotokolleNotebook & ZubehörNovell NetwareOff TopicOpenOffice, LibreOfficeOutlook & MailPapierkorbPascal und DelphiPeripheriegerätePerlPHPPythonRechtliche FragenRedHat, CentOS, FedoraRouter & RoutingSambaSAN, NAS, DASSchriftartenSchulung & TrainingSEOServerServer-HardwareSicherheitSicherheits-ToolsSicherheitsgrundlagenSolarisSonstige SystemeSoziale NetzwerkeSpeicherkartenStudentenjobs & PraktikumSuche ProjektpartnerSuseSwitche und HubsTipps & TricksTK-Netze & GeräteUbuntuUMTS, EDGE & GPRSUtilitiesVB for ApplicationsVerschlüsselung & ZertifikateVideo & StreamingViren und TrojanerVirtualisierungVisual StudioVmwareVoice over IPWebbrowserWebentwicklungWeiterbildungWindows 7Windows 8Windows 10Windows InstallationWindows MobileWindows NetzwerkWindows ServerWindows SystemdateienWindows ToolsWindows UpdateWindows UserverwaltungWindows VistaWindows XPXenserverXMLZusammenarbeit

OCR-Software für Archivierung

Frage Sicherheit Tipps & Tricks

Mitglied: middletown

middletown (Level 1) - Jetzt verbinden

24.11.2011, aktualisiert 14:57 Uhr, 2714 Aufrufe, 2 Kommentare

Hallo Ihr Experten,

Ich arbeite mit Mac OSX 10.6 und möchte für ein Archiv ePaper (als Endprodukt) von Büchern erstellen, für die keine Druckunterlagen mehr existieren. Die Buchseiten werden eingescant, von diesen Scans erstelle ich mit einer OCR-Software ein nach Text durchsuchbares pdf (Bild-Text, d.h. die Originalansicht der Buchseite bleibt erhalten, der Text liegt unsichtbar unter dem Bild), das ich für die spätere Erstellung des ePapers benötige. Soweit funktioniert alles, auch die Suchfunktion. Dem Kunden liegt verständlicherweise daran, das die Texte fehlerfrei eingelesen sind, und hier beginnt das Problem. Den eingelesenen, durchsuchbaren Text kann man ja aus dem pdf kopieren, in ein Dokument einfügen und auf Richtigkeit prüfen. Sollten jetzt Einlesefehler auftauchen, könnte man sie korrigieren und müsste den korrigierten Text praktisch wieder in das pdf (Bild-Text) einbinden. Aber eben das ist bei keiner mir bekannten OCR- oder sonstigen Software möglich, d.h. ich kann zwar Einlesefehler ermitteln, die m.E. bei jeder OCR Software auftauchen, diese aber nicht im durchsuchbaren pfd korrigieren. Und wenn man bei einem Archivbestand mit Index und Suchfunktion arbeitet, muss natürlich der eingelesene Text fehlerfrei sein.
Vielleicht kann mir jemand einen Tipp in Sachen Software oder in anderen Bereichen geben, wie dieses Problem zu lösen ist, da sonst leider ein sehr schönes Projekt zu scheitern droht.
Ich freue mich auf konstruktive Antworten und Ratschläge – möglicherweise kann man ja einen völlig anderen Weg gehen, der bei der gleichen Zielsetzung endet.
Mitglied: NetWolf
24.11.2011 um 22:21 Uhr
Moin Moin,

Eine Bitte: Es wäre nett, wenn du wenigstens ab und zu die Enter-Taste für einen Absatz betätigen könntest. Es erleichtert das Lesen deines Beitrages. Danke

Zum Verständnis: eine PDF-Datei ist das Endprodukt (zumindest war es mal so gedacht) also der elektronische "Ausdruck" eines Druckers!
Immer wieder lese ich wie Menschen krampfhaft versuchen eine PDF - Datei zu manipulieren, statt die Änderung am Original vorzunehmen und eine neue PDF zu erzeugen.

Du hast ein OCR-Programm, das erzeugt eine Textdatei. Super, dann nutze diese Textdatei für die Kontrolle. Was willst du mehr?
Wenn du dann noch die Grafik der Buchseite hast, füge diese hinterher zusammen um dann eine neue PDF daraus zu machen.

OCR-Programme: jeder Schriftsteller hat einen Lektor, so sollte es auch bei einem OCR-Programm sein. Also komplett alles durchlesen und prüfen als Mensch!

Grüße aus Rostock
Wolfgang
(Netwolf)
Bitte warten ..
Mitglied: C.R.S.
25.11.2011 um 19:06 Uhr
Hallo,

die Bearbeitung des verborgenen Textes geht auch in einem PDF-Editor nur bedingt. Z.B. in Acrobat arbeitet man zunächst blind, weil der Text nicht sichtbar gemacht wird. Ein Heraus- und Hineinkopieren wäre wegen der Textorientierung nur zeilenweise möglich. Dadurch ist dieses Vorgehen auch nur bedingt sinnvoll, da beim durchsuchbaren Bild ja eine Auswahl anhand des Bildes möglich sein soll, sich der Text je nach korrigiertem Fehler aber verschiebt.
Du solltest das Projekt meines Erachtens so lange im OCR-Programm verwalten, bis alle Fehler korrigiert sind, und erst dann in PDF exportieren. Ich fürchte nur anhand der Beschreibung, dass ihr kein "vernünftiges" OCR-Programm verwendet.

Grüße
Richard
Bitte warten ..
Neuester Wissensbeitrag
Ähnliche Inhalte
Viren und Trojaner
Mac-AV-Software ermöglichte Einschleusen von Schadcode

Link von Lochkartenstanzer zum Thema Viren und Trojaner ...

Netzwerkmanagement
gelöst Cisco Switch upgrade: Illegal software format (8)

Frage von WinLiCLI zum Thema Netzwerkmanagement ...

Cloud-Dienste
Cloud Software auf Windows Server (3)

Frage von MarcoBrueck zum Thema Cloud-Dienste ...

Festplatten, SSD, Raid
gelöst Software -, Hardware -, Bios Fake Raid (35)

Frage von Winuser zum Thema Festplatten, SSD, Raid ...

Heiß diskutierte Inhalte
TK-Netze & Geräte
gelöst Telefonanlage gesucht (37)

Frage von Xaero1982 zum Thema TK-Netze & Geräte ...

Windows Netzwerk
Anmeldung an Domäne schlägt oft fehlt (Fehlermeldung: falsches Passwort) (24)

Frage von harald.schmidt zum Thema Windows Netzwerk ...

Exchange Server
gelöst Wie freigegebenes Postfach immer als primäre Sendeadresse verwenden? (18)

Frage von Flinxit zum Thema Exchange Server ...

Microsoft Office
Outlook 2016 - Keine Mails sichtbar (nach Suche schon) (17)

Frage von Hirschix3 zum Thema Microsoft Office ...