Top-Themen

AppleEntwicklungHardwareInternetLinuxMicrosoftMultimediaNetzwerkeOff TopicSicherheitSonstige SystemeVirtualisierungWeiterbildungZusammenarbeit

Aktuelle Themen

Administrator.de FeedbackApache ServerAppleAssemblerAudioAusbildungAuslandBackupBasicBatch & ShellBenchmarksBibliotheken & ToolkitsBlogsCloud-DiensteClusterCMSCPU, RAM, MainboardsCSSC und C++DatenbankenDatenschutzDebianDigitiales FernsehenDNSDrucker und ScannerDSL, VDSLE-BooksE-BusinessE-MailEntwicklungErkennung und -AbwehrExchange ServerFestplatten, SSD, RaidFirewallFlatratesGoogle AndroidGrafikGrafikkarten & MonitoreGroupwareHardwareHosting & HousingHTMLHumor (lol)Hyper-VIconsIDE & EditorenInformationsdiensteInstallationInstant MessagingInternetInternet DomäneniOSISDN & AnaloganschlüsseiTunesJavaJavaScriptKiXtartKVMLAN, WAN, WirelessLinuxLinux DesktopLinux NetzwerkLinux ToolsLinux UserverwaltungLizenzierungMac OS XMicrosoftMicrosoft OfficeMikroTik RouterOSMonitoringMultimediaMultimedia & ZubehörNetzwerkeNetzwerkgrundlagenNetzwerkmanagementNetzwerkprotokolleNotebook & ZubehörNovell NetwareOff TopicOpenOffice, LibreOfficeOutlook & MailPapierkorbPascal und DelphiPeripheriegerätePerlPHPPythonRechtliche FragenRedHat, CentOS, FedoraRouter & RoutingSambaSAN, NAS, DASSchriftartenSchulung & TrainingSEOServerServer-HardwareSicherheitSicherheits-ToolsSicherheitsgrundlagenSolarisSonstige SystemeSoziale NetzwerkeSpeicherkartenStudentenjobs & PraktikumSuche ProjektpartnerSuseSwitche und HubsTipps & TricksTK-Netze & GeräteUbuntuUMTS, EDGE & GPRSUtilitiesVB for ApplicationsVerschlüsselung & ZertifikateVideo & StreamingViren und TrojanerVirtualisierungVisual StudioVmwareVoice over IPWebbrowserWebentwicklungWeiterbildungWindows 7Windows 8Windows 10Windows InstallationWindows MobileWindows NetzwerkWindows ServerWindows SystemdateienWindows ToolsWindows UpdateWindows UserverwaltungWindows VistaWindows XPXenserverXMLZusammenarbeit

OCR-Software für Archivierung

Frage Sicherheit Tipps & Tricks

Mitglied: middletown

middletown (Level 1) - Jetzt verbinden

24.11.2011, aktualisiert 14:57 Uhr, 2704 Aufrufe, 2 Kommentare

Hallo Ihr Experten,

Ich arbeite mit Mac OSX 10.6 und möchte für ein Archiv ePaper (als Endprodukt) von Büchern erstellen, für die keine Druckunterlagen mehr existieren. Die Buchseiten werden eingescant, von diesen Scans erstelle ich mit einer OCR-Software ein nach Text durchsuchbares pdf (Bild-Text, d.h. die Originalansicht der Buchseite bleibt erhalten, der Text liegt unsichtbar unter dem Bild), das ich für die spätere Erstellung des ePapers benötige. Soweit funktioniert alles, auch die Suchfunktion. Dem Kunden liegt verständlicherweise daran, das die Texte fehlerfrei eingelesen sind, und hier beginnt das Problem. Den eingelesenen, durchsuchbaren Text kann man ja aus dem pdf kopieren, in ein Dokument einfügen und auf Richtigkeit prüfen. Sollten jetzt Einlesefehler auftauchen, könnte man sie korrigieren und müsste den korrigierten Text praktisch wieder in das pdf (Bild-Text) einbinden. Aber eben das ist bei keiner mir bekannten OCR- oder sonstigen Software möglich, d.h. ich kann zwar Einlesefehler ermitteln, die m.E. bei jeder OCR Software auftauchen, diese aber nicht im durchsuchbaren pfd korrigieren. Und wenn man bei einem Archivbestand mit Index und Suchfunktion arbeitet, muss natürlich der eingelesene Text fehlerfrei sein.
Vielleicht kann mir jemand einen Tipp in Sachen Software oder in anderen Bereichen geben, wie dieses Problem zu lösen ist, da sonst leider ein sehr schönes Projekt zu scheitern droht.
Ich freue mich auf konstruktive Antworten und Ratschläge – möglicherweise kann man ja einen völlig anderen Weg gehen, der bei der gleichen Zielsetzung endet.
Mitglied: NetWolf
24.11.2011 um 22:21 Uhr
Moin Moin,

Eine Bitte: Es wäre nett, wenn du wenigstens ab und zu die Enter-Taste für einen Absatz betätigen könntest. Es erleichtert das Lesen deines Beitrages. Danke

Zum Verständnis: eine PDF-Datei ist das Endprodukt (zumindest war es mal so gedacht) also der elektronische "Ausdruck" eines Druckers!
Immer wieder lese ich wie Menschen krampfhaft versuchen eine PDF - Datei zu manipulieren, statt die Änderung am Original vorzunehmen und eine neue PDF zu erzeugen.

Du hast ein OCR-Programm, das erzeugt eine Textdatei. Super, dann nutze diese Textdatei für die Kontrolle. Was willst du mehr?
Wenn du dann noch die Grafik der Buchseite hast, füge diese hinterher zusammen um dann eine neue PDF daraus zu machen.

OCR-Programme: jeder Schriftsteller hat einen Lektor, so sollte es auch bei einem OCR-Programm sein. Also komplett alles durchlesen und prüfen als Mensch!

Grüße aus Rostock
Wolfgang
(Netwolf)
Bitte warten ..
Mitglied: C.R.S.
25.11.2011 um 19:06 Uhr
Hallo,

die Bearbeitung des verborgenen Textes geht auch in einem PDF-Editor nur bedingt. Z.B. in Acrobat arbeitet man zunächst blind, weil der Text nicht sichtbar gemacht wird. Ein Heraus- und Hineinkopieren wäre wegen der Textorientierung nur zeilenweise möglich. Dadurch ist dieses Vorgehen auch nur bedingt sinnvoll, da beim durchsuchbaren Bild ja eine Auswahl anhand des Bildes möglich sein soll, sich der Text je nach korrigiertem Fehler aber verschiebt.
Du solltest das Projekt meines Erachtens so lange im OCR-Programm verwalten, bis alle Fehler korrigiert sind, und erst dann in PDF exportieren. Ich fürchte nur anhand der Beschreibung, dass ihr kein "vernünftiges" OCR-Programm verwendet.

Grüße
Richard
Bitte warten ..
Neuester Wissensbeitrag
Windows 10

Powershell 5 BSOD

(8)

Tipp von agowa338 zum Thema Windows 10 ...

Ähnliche Inhalte
Grafikkarten & Monitore
Win 10 Grafikkarte Crash von Software? (13)

Frage von Marabunta zum Thema Grafikkarten & Monitore ...

LAN, WAN, Wireless
Software für Backup oder Datensynchronisation über WAN gesucht (4)

Frage von Rubiks zum Thema LAN, WAN, Wireless ...

Drucker und Scanner
gelöst Scanner Software pls schnelle Hilfe (5)

Frage von TheScanner zum Thema Drucker und Scanner ...

Sonstige Systeme
PDF-OCR Erkennung und verschieben in Ordner wenn Schlagwort enthalten (7)

Frage von SysAdm81 zum Thema Sonstige Systeme ...

Heiß diskutierte Inhalte
Microsoft
Ordner mit LW-Buchstaben versehen und benennen (20)

Frage von Xaero1982 zum Thema Microsoft ...

Outlook & Mail
gelöst Outlook 2010 findet ost datei nicht (19)

Frage von Floh21 zum Thema Outlook & Mail ...

Netzwerkmanagement
gelöst Anregungen, kleiner Betrieb, IT-Umgebung (18)

Frage von Unwichtig zum Thema Netzwerkmanagement ...