May 12, 2010

22140

Texterkennung in gescannten PDFs

Hallo,

wir nutzen hier recht intensiv das Scannen über Multifunktionsgeräte (Kyocera 1128 MFP).

Grundsätzlich funktioniert das auch sehr gut. Das Dokument wird gescannt und per PDF verschickt.

Das Problem ist jedoch, dass die Geräte keine Texterkennung beherrschen und dementsprechend die PDFs nicht durchsuchbar sind. Nutze ich meinen billigen Epson-Scanner mit seiner Windows-Software, funktioniert das.

Kennt ihr eine Software, durch die ich die gesamte, mehrseitige PDF durchschicken kann und dabei eine Texterkennung ausgeführt wird?

Vielen Dank für euere Tipps.

Phil

Please also mark the comments that contributed to the solution of the article

Content-Key: 142682

Url: https://administrator.de/contentid/142682

Printed on: April 23, 2024 at 17:04 o'clock

13 Comments

Latest comment

Moin,
das kann inzwischen eingentlich jeder OCR Software. Batchverwaltung und Qualität machen den Preis.
Stefan

Moin

Wie mein Vorposter shcon sagte sollte das jedewede OCR Software auf die Reihe bekommen.

Sollte bei euch eine Acrobat Lizenz vorhanden sein kann man auch dort die OCR Erkennung
starten. Je nach dem was halt an Software schon im Unternehmen schon vorhanden ist.
Ich habe erst anch Wochen kapiert dass der Acrobat das kann ^^.

Gruß
Vile Gangster

Hallo,

könnt ihr mir außer Acrobat noch eine Software empfehlen?

Sie muss sonst keinerlei Funktionen haben.

Ich möchte einfach nur Eingabe-PDF --> Ausgabe-PDF durchsuchbar.

Phil

ABBYY FineReader und Omnipage hatte ich selber mal in früheren Versionen gesehen, kurze Suche bei heise.de: FreeOCR, gocr, TopOCR
Viel Spaß beim Testen

Hallo,

ABYY werde ich mir noch ansehen. Die genannten, "freien" Alternativen wandeln nur ein ein Textfile um und können teilweise auch kein PDF lesen!

Phil

Hallo,

FreeOCR hat z.b. auch ein PDF Modul anbei und is Freeware.

Grüße

Hallo,

ABYY FineReader war leider kein Erfolg. Die "durchsuchbare PDF" sieht komplett anders aus, als die ursprüngliche PDF.

Grafiken werden entfernt und das Ganze sieht aus, wie ein schlechtes Word-Dokument.

Habt ihr noch einen Tipp?

Die "Scansoftware" von Epson macht das eigentlich prima, aber die kann keine PDFs verarbeiten, sondern scannt direkt.

Phil

Hallo,

FreeOCR habe ich gerade getestet. Das kann zwar OCR an PDFs, aber danach habe ich blanken Text. Die PDF-Datei soll optisch praktisch identisch bleiben - nur eben durchsuchbar.

Phil

Hallo,

ich verstehe dein Problem nicht1 Dir geht es um das Durchsuchen von PDF-Dateien? Was hat Texterkennung damit zu tun?

Speichert Ihr die gescannten PDF-Dateien dann nochmal als "Word"-Dokument, um diese dann zu durchsuchen?
Ich denke das ist der falsche Ansatz.

Die Frage sollte lauten: Welches Suchprogramm ist in der Lage, den Inhalt einer PDF zu durchsuchen. (wie z.B. Google es macht)

Grüße aus Rostock
Wolfgang
(Netwolf)

Hallo!

Irgendwie hat das schon mit OCR zu tun!

Ich erhalte eine gescannte, 20 Seiten lange PDF. Darin suchen kann ich nicht, weil der Adobe Reader den Text als Bild sieht. Dementsprechend will ich dass der Text zu Text umgewandelt wird.

Phil

Du kannst den FineReader unterschiedlich enistellen, z.B. ob er den gescannten Text oder den OCR-gescannten Text anzeigen soll und weitere Möglichkeiten. Es gibt auch die Möglichkeit den per OCR erkannten Text quasi "unsichbar" hinter dein ursprünglich gescanntes Dokument zu legen. Ebenso kannst du einzelne Scanbereiche als Textbox oder Grafik markieren etc. Der FineReader sollte eigl. deinen Anforderungen genügen.
Wie gesagt ist schon was her, das ich damit gearbeitet habe, leider gerade keine Version zur Hand, deshalb kann ich dir die genauen Einstellungen nicht benennen.

Das Problem ist eben, beim Scannen wird ein großes A4-Bild erstellt, das lässt sich nicht nach Text durchsuchen. Genausokönnetest du statt des PDF auch etliche jpg erzeugen lassen, kann man ebenso wenig nach Text durchsuchen.
Deshalb die OCR Software, die dem PDF Dokument den erkannten Text mitgibt.

Hallo,

ich würde für bestehende Sammlungen wirklich zu Acrobat raten. Die Software ist auch sonst äußerst nützlich und unterstützt OCR-Stapelverarbeitung.
Die Erkennungsqualität reicht zwar bei schlechten Scans nicht an richtige OCR-Software heran (dafür verwende ich OmniPage) und erkennt unter Umständen nicht die Leserichtung von Spalten und Tabellen so gut. Bei normaler Bildqualität und wenn es nur um das Durchsuchen geht, d.h. später nichts rauskopiert werden soll, ist das aber unproblematisch.
Die Geschwindigkeit ist dafür um einiges höher als bei reiner OCR-Software. Außerdem kann eben nur ein PDF-Editor den erkannten Text ohne Neuberechnung direkt in der Originaldatei hinterlegen. Die OCR muss dafür immer die Bilddateien extrahieren, erkennen und in einer neuen PDF zusammenführen. Das kann die Qualität der Bilddaten merklich vermindern oder man skaliert eben auf eine deutlich größere Datei.
Wenn eine richtige OCR-Software eingesetzt werden soll, würde ich daher nicht in PDFs scannen sondern in Bildstapel höherer Qualität als benötigt. Die können dann erst mit der OCR komprimiert und in PDFs gefasst werden.

Grüße
Richard

German Question Printers, scanners Hardware

Hotly discussed

Check of ZFW Firewallgleixnerd - 5 Comments

Wireguard VPN on UDM Pro behind Fritzbox - Handshake did not completejstricker - 3 Comments

How to set up and configure a Linux GRE tunnelAlexWisha - 3 Comments