Top-Themen

Aktuelle Themen (A bis Z)

Administrator.de FeedbackApache ServerAppleAssemblerAudioAusbildungAuslandBackupBasicBatch & ShellBenchmarksBibliotheken & ToolkitsBlogsCloud-DiensteClusterCMSCPU, RAM, MainboardsCSSC und C++DatenbankenDatenschutzDebianDigitiales FernsehenDNSDrucker und ScannerDSL, VDSLE-BooksE-BusinessE-MailEntwicklungErkennung und -AbwehrExchange ServerFestplatten, SSD, RaidFirewallFlatratesGoogle AndroidGrafikGrafikkarten & MonitoreGroupwareHardwareHosting & HousingHTMLHumor (lol)Hyper-VIconsIDE & EditorenInformationsdiensteInstallationInstant MessagingInternetInternet DomäneniOSISDN & AnaloganschlüsseiTunesJavaJavaScriptKiXtartKVMLAN, WAN, WirelessLinuxLinux DesktopLinux NetzwerkLinux ToolsLinux UserverwaltungLizenzierungMac OS XMicrosoftMicrosoft OfficeMikroTik RouterOSMonitoringMultimediaMultimedia & ZubehörNetzwerkeNetzwerkgrundlagenNetzwerkmanagementNetzwerkprotokolleNotebook & ZubehörNovell NetwareOff TopicOpenOffice, LibreOfficeOutlook & MailPapierkorbPascal und DelphiPeripheriegerätePerlPHPPythonRechtliche FragenRedHat, CentOS, FedoraRouter & RoutingSambaSAN, NAS, DASSchriftartenSchulung & TrainingSEOServerServer-HardwareSicherheitSicherheits-ToolsSicherheitsgrundlagenSolarisSonstige SystemeSoziale NetzwerkeSpeicherkartenStudentenjobs & PraktikumSuche ProjektpartnerSuseSwitche und HubsTipps & TricksTK-Netze & GeräteUbuntuUMTS, EDGE & GPRSUtilitiesVB for ApplicationsVerschlüsselung & ZertifikateVideo & StreamingViren und TrojanerVirtualisierungVisual StudioVmwareVoice over IPWebbrowserWebentwicklungWeiterbildungWindows 7Windows 8Windows 10Windows InstallationWindows MobileWindows NetzwerkWindows ServerWindows SystemdateienWindows ToolsWindows UpdateWindows UserverwaltungWindows VistaWindows XPXenserverXMLZusammenarbeit

Texterkennung in gescannten PDFs

Frage Hardware Drucker und Scanner

Mitglied: Der-Phil

Der-Phil (Level 2) - Jetzt verbinden

12.05.2010 um 09:20 Uhr, 17574 Aufrufe, 13 Kommentare

Hallo,

wir nutzen hier recht intensiv das Scannen über Multifunktionsgeräte (Kyocera 1128 MFP).

Grundsätzlich funktioniert das auch sehr gut. Das Dokument wird gescannt und per PDF verschickt.

Das Problem ist jedoch, dass die Geräte keine Texterkennung beherrschen und dementsprechend die PDFs nicht durchsuchbar sind. Nutze ich meinen billigen Epson-Scanner mit seiner Windows-Software, funktioniert das.


Kennt ihr eine Software, durch die ich die gesamte, mehrseitige PDF durchschicken kann und dabei eine Texterkennung ausgeführt wird?

Vielen Dank für euere Tipps.

Phil
Mitglied: StefanKittel
12.05.2010 um 09:24 Uhr
Moin,
das kann inzwischen eingentlich jeder OCR Software. Batchverwaltung und Qualität machen den Preis.
Stefan
Bitte warten ..
Mitglied: Vile-Gangster
12.05.2010 um 09:40 Uhr
Moin

Wie mein Vorposter shcon sagte sollte das jedewede OCR Software auf die Reihe bekommen.

Sollte bei euch eine Acrobat Lizenz vorhanden sein kann man auch dort die OCR Erkennung
starten. Je nach dem was halt an Software schon im Unternehmen schon vorhanden ist.
Ich habe erst anch Wochen kapiert dass der Acrobat das kann ^^.


Gruß
Vile Gangster
Bitte warten ..
Mitglied: Der-Phil
12.05.2010 um 10:08 Uhr
Hallo,

könnt ihr mir außer Acrobat noch eine Software empfehlen?

Sie muss sonst keinerlei Funktionen haben.

Ich möchte einfach nur Eingabe-PDF --> Ausgabe-PDF durchsuchbar.

Phil
Bitte warten ..
Mitglied: Connor1980
12.05.2010 um 10:33 Uhr
ABBYY FineReader und Omnipage hatte ich selber mal in früheren Versionen gesehen, kurze Suche bei heise.de: FreeOCR, gocr, TopOCR
Viel Spaß beim Testen
Bitte warten ..
Mitglied: Der-Phil
12.05.2010 um 11:02 Uhr
Hallo,

ABYY werde ich mir noch ansehen. Die genannten, "freien" Alternativen wandeln nur ein ein Textfile um und können teilweise auch kein PDF lesen!

Phil
Bitte warten ..
Mitglied: godlie
12.05.2010 um 11:57 Uhr
Hallo,

FreeOCR hat z.b. auch ein PDF Modul anbei und is Freeware.

Grüße
Bitte warten ..
Mitglied: Der-Phil
12.05.2010 um 12:07 Uhr
Hallo,

ABYY FineReader war leider kein Erfolg. Die "durchsuchbare PDF" sieht komplett anders aus, als die ursprüngliche PDF.

Grafiken werden entfernt und das Ganze sieht aus, wie ein schlechtes Word-Dokument.

Habt ihr noch einen Tipp?

Die "Scansoftware" von Epson macht das eigentlich prima, aber die kann keine PDFs verarbeiten, sondern scannt direkt.

Phil
Bitte warten ..
Mitglied: Der-Phil
12.05.2010 um 12:20 Uhr
Hallo,

FreeOCR habe ich gerade getestet. Das kann zwar OCR an PDFs, aber danach habe ich blanken Text. Die PDF-Datei soll optisch praktisch identisch bleiben - nur eben durchsuchbar.

Phil
Bitte warten ..
Mitglied: NetWolf
12.05.2010 um 15:21 Uhr
Hallo,

ich verstehe dein Problem nicht1 Dir geht es um das Durchsuchen von PDF-Dateien? Was hat Texterkennung damit zu tun?

Speichert Ihr die gescannten PDF-Dateien dann nochmal als "Word"-Dokument, um diese dann zu durchsuchen?
Ich denke das ist der falsche Ansatz.

Die Frage sollte lauten: Welches Suchprogramm ist in der Lage, den Inhalt einer PDF zu durchsuchen. (wie z.B. Google es macht)


Grüße aus Rostock
Wolfgang
(Netwolf)
Bitte warten ..
Mitglied: Der-Phil
12.05.2010 um 15:34 Uhr
Hallo!

Irgendwie hat das schon mit OCR zu tun!

Ich erhalte eine gescannte, 20 Seiten lange PDF. Darin suchen kann ich nicht, weil der Adobe Reader den Text als Bild sieht. Dementsprechend will ich dass der Text zu Text umgewandelt wird.

Phil
Bitte warten ..
Mitglied: Connor1980
12.05.2010 um 18:17 Uhr
Du kannst den FineReader unterschiedlich enistellen, z.B. ob er den gescannten Text oder den OCR-gescannten Text anzeigen soll und weitere Möglichkeiten. Es gibt auch die Möglichkeit den per OCR erkannten Text quasi "unsichbar" hinter dein ursprünglich gescanntes Dokument zu legen. Ebenso kannst du einzelne Scanbereiche als Textbox oder Grafik markieren etc. Der FineReader sollte eigl. deinen Anforderungen genügen.
Wie gesagt ist schon was her, das ich damit gearbeitet habe, leider gerade keine Version zur Hand, deshalb kann ich dir die genauen Einstellungen nicht benennen.
Bitte warten ..
Mitglied: Connor1980
12.05.2010 um 18:19 Uhr
Das Problem ist eben, beim Scannen wird ein großes A4-Bild erstellt, das lässt sich nicht nach Text durchsuchen. Genausokönnetest du statt des PDF auch etliche jpg erzeugen lassen, kann man ebenso wenig nach Text durchsuchen.
Deshalb die OCR Software, die dem PDF Dokument den erkannten Text mitgibt.
Bitte warten ..
Mitglied: C.R.S.
13.05.2010 um 15:10 Uhr
Hallo,

ich würde für bestehende Sammlungen wirklich zu Acrobat raten. Die Software ist auch sonst äußerst nützlich und unterstützt OCR-Stapelverarbeitung.
Die Erkennungsqualität reicht zwar bei schlechten Scans nicht an richtige OCR-Software heran (dafür verwende ich OmniPage) und erkennt unter Umständen nicht die Leserichtung von Spalten und Tabellen so gut. Bei normaler Bildqualität und wenn es nur um das Durchsuchen geht, d.h. später nichts rauskopiert werden soll, ist das aber unproblematisch.
Die Geschwindigkeit ist dafür um einiges höher als bei reiner OCR-Software. Außerdem kann eben nur ein PDF-Editor den erkannten Text ohne Neuberechnung direkt in der Originaldatei hinterlegen. Die OCR muss dafür immer die Bilddateien extrahieren, erkennen und in einer neuen PDF zusammenführen. Das kann die Qualität der Bilddaten merklich vermindern oder man skaliert eben auf eine deutlich größere Datei.
Wenn eine richtige OCR-Software eingesetzt werden soll, würde ich daher nicht in PDFs scannen sondern in Bildstapel höherer Qualität als benötigt. Die können dann erst mit der OCR komprimiert und in PDFs gefasst werden.

Grüße
Richard
Bitte warten ..
Ähnliche Inhalte
Grafik
Gescanntes PDF in ein durchsuchbares PDF umwandeln
Frage von FalaffelGrafik10 Kommentare

Hallo, ich suche eine Möglichkeit gescannte PDFs komfortabel in durchsuchbare PDFs umzuwandeln. Die PDFs kommen von A3-Kopierern direkt in ...

Grafik
PDF: gescannte Doppelseite in Einzelseiten umwandeln
Frage von trallerGrafik9 Kommentare

Hallo, ich habe ein PDF-Dokument, in dem sich doppelseitig gescannte Seiten befinden. Diese Doppelseiten möchte ich gerne als Einzelseitentrennen. ...

Linux Tools
OpenSource Toolbox für die Texterkennung (OCR) um PDF Dokumente durchsuchbar zu machen
Tipp von colinardoLinux Tools5 Kommentare

Die Toolbox mit dem Namen OCRmyPDF erledigt mit OpenSource-Tools wie tesseract, ghostscript etc. die Texterkennung und Umwandlung von PDF-Dateien ...

Netzwerke
Buchhalterische Belege nur noch gescannt in der EDV archivieren
Frage von thomasreischerNetzwerke10 Kommentare

Hallo zusammen, Wir würden bei uns demnächst gerne die zettelwirtschaft der Buchhaltung eindämmen. Wir haben uns vorgestellt alle Eingangsrechnungen ...

Neue Wissensbeiträge
Internet

USA: Die FCC schaff die Netzneutralität ab

Information von Frank vor 2 StundenInternet2 Kommentare

Jetzt beschädigt US-Präsident Donald Trump auch noch das Internet. Der neu eingesetzte FCC-Chef Ajit Pai ist bekannter Gegner einer ...

DSL, VDSL

ALL-BM200VDSL2V - Neues VDSL-Modem mit Vectoring von Allnet

Information von Lochkartenstanzer vor 6 StundenDSL, VDSL1 Kommentar

Moin, Falls jemand eine Alternative zu dem draytek sucht: Gruß lks

Windows 10

Microsoft bestätigt DMA-Policy-Problem in Win10 v1709

Information von DerWoWusste vor 6 StundenWindows 10

Wer sein Gerät mit der DMA-Policy absichert, bekommt evtl. Hardwareprobleme in v1709 von Win10. Warum? Weil v1709 endlich "richtig" ...

Verschlüsselung & Zertifikate

Die Hölle friert ein weiteres Stück zu: Microsoft integriert OpenSSH in Windows

Information von ticuta1 vor 10 StundenVerschlüsselung & Zertifikate

Interessant Die Hölle friert ein weiteres Stück zu: Microsoft integriert OpenSSH in Windows SSH-Kommando in CMD.exe und PowerShell

Heiß diskutierte Inhalte
Netzwerkmanagement
Mehrere Netzwerkadapter in einem PC zu einem Switch zusammenfügen
Frage von prodriveNetzwerkmanagement21 Kommentare

Hallo zusammen Vorweg, ich konnte schon einige IT-Probleme mit Hilfe dieses Forums lösen. Wirklich klasse hier! Doch für das ...

Windows Server
RODC kann nicht aus Domäne entfernt werden
Frage von NilsvLehnWindows Server19 Kommentare

HAllo, ich arbeite in einem Universitätsnetzwerk mit 3 Standorten. Die Standorte haben alle ein ESXi Cluster und auf diesen ...

Hardware
Kein Bild mit nur einer bestimmten Grafikkarten - Mainboard Konfiguration
gelöst Frage von bestelittHardware18 Kommentare

Hallo zusammen, ich hatte schon einmal eine ähnliche Frage gestellt. Damals hatte ich genau das gleiche Problem. Allerdings lies ...

Hardware
Links klick bei Maus funktioniert nicht
gelöst Frage von Pablu23Hardware16 Kommentare

Hallo erstmal. Ich habe ein Problem mit meiner relativ alten maus jedoch denke ich nicht das es an der ...