Top-Themen

Aktuelle Themen (A bis Z)

Administrator.de FeedbackApache ServerAppleAssemblerAudioAusbildungAuslandBackupBasicBatch & ShellBenchmarksBibliotheken & ToolkitsBlogsCloud-DiensteClusterCMSCPU, RAM, MainboardsCSSC und C++DatenbankenDatenschutzDebianDigitiales FernsehenDNSDrucker und ScannerDSL, VDSLE-BooksE-BusinessE-MailEntwicklungErkennung und -AbwehrExchange ServerFestplatten, SSD, RaidFirewallFlatratesGoogle AndroidGrafikGrafikkarten & MonitoreGroupwareHardwareHosting & HousingHTMLHumor (lol)Hyper-VIconsIDE & EditorenInformationsdiensteInstallationInstant MessagingInternetInternet DomäneniOSISDN & AnaloganschlüsseiTunesJavaJavaScriptKiXtartKVMLAN, WAN, WirelessLinuxLinux DesktopLinux NetzwerkLinux ToolsLinux UserverwaltungLizenzierungMac OS XMicrosoftMicrosoft OfficeMikroTik RouterOSMonitoringMultimediaMultimedia & ZubehörNetzwerkeNetzwerkgrundlagenNetzwerkmanagementNetzwerkprotokolleNotebook & ZubehörNovell NetwareOff TopicOpenOffice, LibreOfficeOutlook & MailPapierkorbPascal und DelphiPeripheriegerätePerlPHPPythonRechtliche FragenRedHat, CentOS, FedoraRouter & RoutingSambaSAN, NAS, DASSchriftartenSchulung & TrainingSEOServerServer-HardwareSicherheitSicherheits-ToolsSicherheitsgrundlagenSolarisSonstige SystemeSoziale NetzwerkeSpeicherkartenStudentenjobs & PraktikumSuche ProjektpartnerSuseSwitche und HubsTipps & TricksTK-Netze & GeräteUbuntuUMTS, EDGE & GPRSUtilitiesVB for ApplicationsVerschlüsselung & ZertifikateVideo & StreamingViren und TrojanerVirtualisierungVisual StudioVmwareVoice over IPWebbrowserWebentwicklungWeiterbildungWindows 7Windows 8Windows 10Windows InstallationWindows MobileWindows NetzwerkWindows ServerWindows SystemdateienWindows ToolsWindows UpdateWindows UserverwaltungWindows VistaWindows XPXenserverXMLZusammenarbeit

OCR-Software für Archivierung

Mitglied: middletown

middletown (Level 1) - Jetzt verbinden

24.11.2011, aktualisiert 14:57 Uhr, 2743 Aufrufe, 2 Kommentare

Hallo Ihr Experten,

Ich arbeite mit Mac OSX 10.6 und möchte für ein Archiv ePaper (als Endprodukt) von Büchern erstellen, für die keine Druckunterlagen mehr existieren. Die Buchseiten werden eingescant, von diesen Scans erstelle ich mit einer OCR-Software ein nach Text durchsuchbares pdf (Bild-Text, d.h. die Originalansicht der Buchseite bleibt erhalten, der Text liegt unsichtbar unter dem Bild), das ich für die spätere Erstellung des ePapers benötige. Soweit funktioniert alles, auch die Suchfunktion. Dem Kunden liegt verständlicherweise daran, das die Texte fehlerfrei eingelesen sind, und hier beginnt das Problem. Den eingelesenen, durchsuchbaren Text kann man ja aus dem pdf kopieren, in ein Dokument einfügen und auf Richtigkeit prüfen. Sollten jetzt Einlesefehler auftauchen, könnte man sie korrigieren und müsste den korrigierten Text praktisch wieder in das pdf (Bild-Text) einbinden. Aber eben das ist bei keiner mir bekannten OCR- oder sonstigen Software möglich, d.h. ich kann zwar Einlesefehler ermitteln, die m.E. bei jeder OCR Software auftauchen, diese aber nicht im durchsuchbaren pfd korrigieren. Und wenn man bei einem Archivbestand mit Index und Suchfunktion arbeitet, muss natürlich der eingelesene Text fehlerfrei sein.
Vielleicht kann mir jemand einen Tipp in Sachen Software oder in anderen Bereichen geben, wie dieses Problem zu lösen ist, da sonst leider ein sehr schönes Projekt zu scheitern droht.
Ich freue mich auf konstruktive Antworten und Ratschläge – möglicherweise kann man ja einen völlig anderen Weg gehen, der bei der gleichen Zielsetzung endet.
Mitglied: NetWolf
24.11.2011 um 22:21 Uhr
Moin Moin,

Eine Bitte: Es wäre nett, wenn du wenigstens ab und zu die Enter-Taste für einen Absatz betätigen könntest. Es erleichtert das Lesen deines Beitrages. Danke

Zum Verständnis: eine PDF-Datei ist das Endprodukt (zumindest war es mal so gedacht) also der elektronische "Ausdruck" eines Druckers!
Immer wieder lese ich wie Menschen krampfhaft versuchen eine PDF - Datei zu manipulieren, statt die Änderung am Original vorzunehmen und eine neue PDF zu erzeugen.

Du hast ein OCR-Programm, das erzeugt eine Textdatei. Super, dann nutze diese Textdatei für die Kontrolle. Was willst du mehr?
Wenn du dann noch die Grafik der Buchseite hast, füge diese hinterher zusammen um dann eine neue PDF daraus zu machen.

OCR-Programme: jeder Schriftsteller hat einen Lektor, so sollte es auch bei einem OCR-Programm sein. Also komplett alles durchlesen und prüfen als Mensch!

Grüße aus Rostock
Wolfgang
(Netwolf)
Bitte warten ..
Mitglied: C.R.S.
25.11.2011 um 19:06 Uhr
Hallo,

die Bearbeitung des verborgenen Textes geht auch in einem PDF-Editor nur bedingt. Z.B. in Acrobat arbeitet man zunächst blind, weil der Text nicht sichtbar gemacht wird. Ein Heraus- und Hineinkopieren wäre wegen der Textorientierung nur zeilenweise möglich. Dadurch ist dieses Vorgehen auch nur bedingt sinnvoll, da beim durchsuchbaren Bild ja eine Auswahl anhand des Bildes möglich sein soll, sich der Text je nach korrigiertem Fehler aber verschiebt.
Du solltest das Projekt meines Erachtens so lange im OCR-Programm verwalten, bis alle Fehler korrigiert sind, und erst dann in PDF exportieren. Ich fürchte nur anhand der Beschreibung, dass ihr kein "vernünftiges" OCR-Programm verwendet.

Grüße
Richard
Bitte warten ..
Ähnliche Inhalte
Multimedia
OCR - Software
gelöst Frage von TlBERlUSMultimedia10 Kommentare

Guten Morgen, ich suche eine OCR-Software, die - automatisiert Verzeichnisse überwacht und verarbeitet - das starten mehrerer Instanzen erlaubt ...

Exchange Server
(Suche) Mail Archivierungs Software
gelöst Frage von racer1601Exchange Server15 Kommentare

Hallo im nächsten Jahr muss ich mich mit dem Thema rechtssichere Mailarchivierung beschäftigen. Da ich die letzten Jahren im ...

Windows Tools
Tipp für gutes OCR Programm?
gelöst Frage von QQR700Windows Tools4 Kommentare

Hallo, ich bin auf der Suche nach einem guten OCR-Programm (für Windows 7). Es soll eine hohe Erkennungsrate haben ...

Windows Server

FileServer automatische PDF-OCR-Umwandlung

gelöst Frage von derkleineralfWindows Server3 Kommentare

Hallo zusammen, Folgendes Projekt steht bei uns an: abgelegte und zukünftig abzulegende pdf-Dateien sollen automatisch in maschinenlesbares Format (Pdf/A) ...

Neue Wissensbeiträge
Windows 10
Zero-Day-Lücke in Microsoft Edge
Information von kgborn vor 1 TagWindows 10

In Microsofts Edge-Browser klafft wohl eine nicht geschlossene (0-Day) Sicherheitslücke im Just In Time Compiler (JIT Compiler) für Javascript. ...

Sicherheit
Microsoft und Skype: Sicherheit
Information von kgborn vor 1 TagSicherheit

Die Tage gab es ja einige Berichte zur Sicherheit des Skype-Updaters. Der Updater von Skype läuft unter dem Konto ...

Datenschutz

Behörden ignorieren Sicherheitsbedenken gegenüber Windows 10

Information von Penny.Cilin vor 2 TagenDatenschutz8 Kommentare

Hallo, passend zum Thema Ablösung LIMUX in München ein Beitrag bei Heise (siehe Link folgend). Behörden ignorieren Sicherheitsbedenken gegenüber ...

Sicherheit
Information Security Hub Munich airport
Information von brammer vor 2 TagenSicherheit

Hallo, Neues Center für Cyber Kriminalität am Münchener Flughafen brammer

Heiß diskutierte Inhalte
DSL, VDSL
Mindestgeschwindigkeiten DSL Telekom
Frage von justlukasDSL, VDSL13 Kommentare

Hallo zusammen, Seit diesem Jahr habe ich Verständnisprobleme mit dem Verhalten der Telekom. Wir haben seit einem Jahr VDSL ...

Switche und Hubs
LANCOM-Switch: Probleme (no link) mit SFP-Modulen?
Frage von THETOBSwitche und Hubs9 Kommentare

Hi zusammen, ich habe folgendes Problem: Und zwar habe ich an einem Standort drei Switche verbaut - LANCOM GS-2326P+, ...

Debian
Wie finde ich den betroffenen user
Frage von ProtectedDebian8 Kommentare

Hallo, Wie kann ich den User finden der dies verursacht hat? Betriebsystem ist Debian 7 your Server/Customer with the ...

Voice over IP
Vodafone IP Anlagenanschluss - TK-Anlage einrichten
Frage von BytedreherVoice over IP8 Kommentare

Moin Zusammen, wir hatten gestern bei uns die Umstellung auf den neuen IP Anschluss bei Vodafone. Vodafone IP Anlagenanschluss ...