Top-Themen

AppleEntwicklungHardwareInternetLinuxMicrosoftMultimediaNetzwerkeOff TopicSicherheitSonstige SystemeVirtualisierungWeiterbildungZusammenarbeit

Aktuelle Themen

Administrator.de FeedbackApache ServerAppleAssemblerAudioAusbildungAuslandBackupBasicBatch & ShellBenchmarksBibliotheken & ToolkitsBlogsCloud-DiensteClusterCMSCPU, RAM, MainboardsCSSC und C++DatenbankenDatenschutzDebianDigitiales FernsehenDNSDrucker und ScannerDSL, VDSLE-BooksE-BusinessE-MailEntwicklungErkennung und -AbwehrExchange ServerFestplatten, SSD, RaidFirewallFlatratesGoogle AndroidGrafikGrafikkarten & MonitoreGroupwareHardwareHosting & HousingHTMLHumor (lol)Hyper-VIconsIDE & EditorenInformationsdiensteInstallationInstant MessagingInternetInternet DomäneniOSISDN & AnaloganschlüsseiTunesJavaJavaScriptKiXtartKVMLAN, WAN, WirelessLinuxLinux DesktopLinux NetzwerkLinux ToolsLinux UserverwaltungLizenzierungMac OS XMicrosoftMicrosoft OfficeMikroTik RouterOSMonitoringMultimediaMultimedia & ZubehörNetzwerkeNetzwerkgrundlagenNetzwerkmanagementNetzwerkprotokolleNotebook & ZubehörNovell NetwareOff TopicOpenOffice, LibreOfficeOutlook & MailPapierkorbPascal und DelphiPeripheriegerätePerlPHPPythonRechtliche FragenRedHat, CentOS, FedoraRouter & RoutingSambaSAN, NAS, DASSchriftartenSchulung & TrainingSEOServerServer-HardwareSicherheitSicherheits-ToolsSicherheitsgrundlagenSolarisSonstige SystemeSoziale NetzwerkeSpeicherkartenStudentenjobs & PraktikumSuche ProjektpartnerSuseSwitche und HubsTipps & TricksTK-Netze & GeräteUbuntuUMTS, EDGE & GPRSUtilitiesVB for ApplicationsVerschlüsselung & ZertifikateVideo & StreamingViren und TrojanerVirtualisierungVisual StudioVmwareVoice over IPWebbrowserWebentwicklungWeiterbildungWindows 7Windows 8Windows 10Windows InstallationWindows MobileWindows NetzwerkWindows ServerWindows SystemdateienWindows ToolsWindows UpdateWindows UserverwaltungWindows VistaWindows XPXenserverXMLZusammenarbeit

Texterkennung in gescannten PDFs

Frage Hardware Drucker und Scanner

Mitglied: Der-Phil

Der-Phil (Level 2) - Jetzt verbinden

12.05.2010 um 09:20 Uhr, 16471 Aufrufe, 13 Kommentare

Hallo,

wir nutzen hier recht intensiv das Scannen über Multifunktionsgeräte (Kyocera 1128 MFP).

Grundsätzlich funktioniert das auch sehr gut. Das Dokument wird gescannt und per PDF verschickt.

Das Problem ist jedoch, dass die Geräte keine Texterkennung beherrschen und dementsprechend die PDFs nicht durchsuchbar sind. Nutze ich meinen billigen Epson-Scanner mit seiner Windows-Software, funktioniert das.


Kennt ihr eine Software, durch die ich die gesamte, mehrseitige PDF durchschicken kann und dabei eine Texterkennung ausgeführt wird?

Vielen Dank für euere Tipps.

Phil
Mitglied: StefanKittel
12.05.2010 um 09:24 Uhr
Moin,
das kann inzwischen eingentlich jeder OCR Software. Batchverwaltung und Qualität machen den Preis.
Stefan
Bitte warten ..
Mitglied: Vile-Gangster
12.05.2010 um 09:40 Uhr
Moin

Wie mein Vorposter shcon sagte sollte das jedewede OCR Software auf die Reihe bekommen.

Sollte bei euch eine Acrobat Lizenz vorhanden sein kann man auch dort die OCR Erkennung
starten. Je nach dem was halt an Software schon im Unternehmen schon vorhanden ist.
Ich habe erst anch Wochen kapiert dass der Acrobat das kann ^^.


Gruß
Vile Gangster
Bitte warten ..
Mitglied: Der-Phil
12.05.2010 um 10:08 Uhr
Hallo,

könnt ihr mir außer Acrobat noch eine Software empfehlen?

Sie muss sonst keinerlei Funktionen haben.

Ich möchte einfach nur Eingabe-PDF --> Ausgabe-PDF durchsuchbar.

Phil
Bitte warten ..
Mitglied: Connor1980
12.05.2010 um 10:33 Uhr
ABBYY FineReader und Omnipage hatte ich selber mal in früheren Versionen gesehen, kurze Suche bei heise.de: FreeOCR, gocr, TopOCR
Viel Spaß beim Testen
Bitte warten ..
Mitglied: Der-Phil
12.05.2010 um 11:02 Uhr
Hallo,

ABYY werde ich mir noch ansehen. Die genannten, "freien" Alternativen wandeln nur ein ein Textfile um und können teilweise auch kein PDF lesen!

Phil
Bitte warten ..
Mitglied: godlie
12.05.2010 um 11:57 Uhr
Hallo,

FreeOCR hat z.b. auch ein PDF Modul anbei und is Freeware.

Grüße
Bitte warten ..
Mitglied: Der-Phil
12.05.2010 um 12:07 Uhr
Hallo,

ABYY FineReader war leider kein Erfolg. Die "durchsuchbare PDF" sieht komplett anders aus, als die ursprüngliche PDF.

Grafiken werden entfernt und das Ganze sieht aus, wie ein schlechtes Word-Dokument.

Habt ihr noch einen Tipp?

Die "Scansoftware" von Epson macht das eigentlich prima, aber die kann keine PDFs verarbeiten, sondern scannt direkt.

Phil
Bitte warten ..
Mitglied: Der-Phil
12.05.2010 um 12:20 Uhr
Hallo,

FreeOCR habe ich gerade getestet. Das kann zwar OCR an PDFs, aber danach habe ich blanken Text. Die PDF-Datei soll optisch praktisch identisch bleiben - nur eben durchsuchbar.

Phil
Bitte warten ..
Mitglied: NetWolf
12.05.2010 um 15:21 Uhr
Hallo,

ich verstehe dein Problem nicht1 Dir geht es um das Durchsuchen von PDF-Dateien? Was hat Texterkennung damit zu tun?

Speichert Ihr die gescannten PDF-Dateien dann nochmal als "Word"-Dokument, um diese dann zu durchsuchen?
Ich denke das ist der falsche Ansatz.

Die Frage sollte lauten: Welches Suchprogramm ist in der Lage, den Inhalt einer PDF zu durchsuchen. (wie z.B. Google es macht)


Grüße aus Rostock
Wolfgang
(Netwolf)
Bitte warten ..
Mitglied: Der-Phil
12.05.2010 um 15:34 Uhr
Hallo!

Irgendwie hat das schon mit OCR zu tun!

Ich erhalte eine gescannte, 20 Seiten lange PDF. Darin suchen kann ich nicht, weil der Adobe Reader den Text als Bild sieht. Dementsprechend will ich dass der Text zu Text umgewandelt wird.

Phil
Bitte warten ..
Mitglied: Connor1980
12.05.2010 um 18:17 Uhr
Du kannst den FineReader unterschiedlich enistellen, z.B. ob er den gescannten Text oder den OCR-gescannten Text anzeigen soll und weitere Möglichkeiten. Es gibt auch die Möglichkeit den per OCR erkannten Text quasi "unsichbar" hinter dein ursprünglich gescanntes Dokument zu legen. Ebenso kannst du einzelne Scanbereiche als Textbox oder Grafik markieren etc. Der FineReader sollte eigl. deinen Anforderungen genügen.
Wie gesagt ist schon was her, das ich damit gearbeitet habe, leider gerade keine Version zur Hand, deshalb kann ich dir die genauen Einstellungen nicht benennen.
Bitte warten ..
Mitglied: Connor1980
12.05.2010 um 18:19 Uhr
Das Problem ist eben, beim Scannen wird ein großes A4-Bild erstellt, das lässt sich nicht nach Text durchsuchen. Genausokönnetest du statt des PDF auch etliche jpg erzeugen lassen, kann man ebenso wenig nach Text durchsuchen.
Deshalb die OCR Software, die dem PDF Dokument den erkannten Text mitgibt.
Bitte warten ..
Mitglied: C.R.S.
13.05.2010 um 15:10 Uhr
Hallo,

ich würde für bestehende Sammlungen wirklich zu Acrobat raten. Die Software ist auch sonst äußerst nützlich und unterstützt OCR-Stapelverarbeitung.
Die Erkennungsqualität reicht zwar bei schlechten Scans nicht an richtige OCR-Software heran (dafür verwende ich OmniPage) und erkennt unter Umständen nicht die Leserichtung von Spalten und Tabellen so gut. Bei normaler Bildqualität und wenn es nur um das Durchsuchen geht, d.h. später nichts rauskopiert werden soll, ist das aber unproblematisch.
Die Geschwindigkeit ist dafür um einiges höher als bei reiner OCR-Software. Außerdem kann eben nur ein PDF-Editor den erkannten Text ohne Neuberechnung direkt in der Originaldatei hinterlegen. Die OCR muss dafür immer die Bilddateien extrahieren, erkennen und in einer neuen PDF zusammenführen. Das kann die Qualität der Bilddaten merklich vermindern oder man skaliert eben auf eine deutlich größere Datei.
Wenn eine richtige OCR-Software eingesetzt werden soll, würde ich daher nicht in PDFs scannen sondern in Bildstapel höherer Qualität als benötigt. Die können dann erst mit der OCR komprimiert und in PDFs gefasst werden.

Grüße
Richard
Bitte warten ..
Neuester Wissensbeitrag
Windows 10

Powershell 5 BSOD

(8)

Tipp von agowa338 zum Thema Windows 10 ...

Ähnliche Inhalte
Drucker und Scanner
gelöst PDFs erstellen (12)

Frage von Henere zum Thema Drucker und Scanner ...

Drucker und Scanner
gelöst Brauche einen Netzwerk PDF Drucker der PDFs automatisch speichert (10)

Frage von capsob zum Thema Drucker und Scanner ...

Heiß diskutierte Inhalte
Microsoft
Ordner mit LW-Buchstaben versehen und benennen (20)

Frage von Xaero1982 zum Thema Microsoft ...

Outlook & Mail
gelöst Outlook 2010 findet ost datei nicht (19)

Frage von Floh21 zum Thema Outlook & Mail ...

Netzwerkmanagement
gelöst Anregungen, kleiner Betrieb, IT-Umgebung (18)

Frage von Unwichtig zum Thema Netzwerkmanagement ...

Festplatten, SSD, Raid
M.2 SSD wird nicht erkannt (14)

Frage von uridium69 zum Thema Festplatten, SSD, Raid ...