Top-Themen

AppleEntwicklungHardwareInternetLinuxMicrosoftMultimediaNetzwerkeOff TopicSicherheitSonstige SystemeVirtualisierungWeiterbildungZusammenarbeit

Aktuelle Themen

Administrator.de FeedbackApache ServerAppleAssemblerAudioAusbildungAuslandBackupBasicBatch & ShellBenchmarksBibliotheken & ToolkitsBlogsCloud-DiensteClusterCMSCPU, RAM, MainboardsCSSC und C++DatenbankenDatenschutzDebianDigitiales FernsehenDNSDrucker und ScannerDSL, VDSLE-BooksE-BusinessE-MailEntwicklungErkennung und -AbwehrExchange ServerFestplatten, SSD, RaidFirewallFlatratesGoogle AndroidGrafikGrafikkarten & MonitoreGroupwareHardwareHosting & HousingHTMLHumor (lol)Hyper-VIconsIDE & EditorenInformationsdiensteInstallationInstant MessagingInternetInternet DomäneniOSISDN & AnaloganschlüsseiTunesJavaJavaScriptKiXtartKVMLAN, WAN, WirelessLinuxLinux DesktopLinux NetzwerkLinux ToolsLinux UserverwaltungLizenzierungMac OS XMicrosoftMicrosoft OfficeMikroTik RouterOSMonitoringMultimediaMultimedia & ZubehörNetzwerkeNetzwerkgrundlagenNetzwerkmanagementNetzwerkprotokolleNotebook & ZubehörNovell NetwareOff TopicOpenOffice, LibreOfficeOutlook & MailPapierkorbPascal und DelphiPeripheriegerätePerlPHPPythonRechtliche FragenRedHat, CentOS, FedoraRouter & RoutingSambaSAN, NAS, DASSchriftartenSchulung & TrainingSEOServerServer-HardwareSicherheitSicherheits-ToolsSicherheitsgrundlagenSolarisSonstige SystemeSoziale NetzwerkeSpeicherkartenStudentenjobs & PraktikumSuche ProjektpartnerSuseSwitche und HubsTipps & TricksTK-Netze & GeräteUbuntuUMTS, EDGE & GPRSUtilitiesVB for ApplicationsVerschlüsselung & ZertifikateVideo & StreamingViren und TrojanerVirtualisierungVisual StudioVmwareVoice over IPWebbrowserWebentwicklungWeiterbildungWindows 7Windows 8Windows 10Windows InstallationWindows MobileWindows NetzwerkWindows ServerWindows SystemdateienWindows ToolsWindows UpdateWindows UserverwaltungWindows VistaWindows XPXenserverXMLZusammenarbeit

OpenSource Toolbox für die Texterkennung (OCR) um PDF Dokumente durchsuchbar zu machen

Tipp Linux Linux Tools

Mitglied: colinardo

colinardo (Level 5) - Jetzt verbinden

14.09.2014, aktualisiert 12:26 Uhr, 10922 Aufrufe, 5 Kommentare, 2 Danke

Die Toolbox mit dem Namen OCRmyPDF erledigt mit OpenSource-Tools wie tesseract, ghostscript etc. die Texterkennung und Umwandlung von PDF-Dateien in PDF/A zuverlässig und kostenlos. Es ist ein normales Shell-Script welches nach dem Herunterladen nur noch ausführbar gemacht werden muss (chmod +x OCRmyPDF.sh).

Folgende Pakete sind jedoch Voraussetzung für das Funktionieren des Script's:
Parallel, Poppler-Utils, Imagemagick, Unpaper, Tesseract, Python 2, Ghostscript, Java
Diese lassen sich über die Paketverwaltung des eigenen Systems installieren. Mehr zu den Abhängigkeiten steht in den Release-Notes.

Für die Texterkennung reicht dann z.B. folgender Befehl (Erkennungssprache: Deutsch):
./OCRmyPDF.sh -l deu input.pdf output.pdf
Grüße Uwe
Mitglied: DerWoWusste
14.09.2014 um 23:35 Uhr
Moin.
Danke für den Tipp.
Wie bewertest Du die Qualität, verglichen mit Kommerz wie Acrobat 11 oder aktuellem Abby Fine reader?
Bitte warten ..
Mitglied: colinardo
15.09.2014, aktualisiert um 09:44 Uhr
Hi DWW,
genau verglichen habe ich das noch nicht, aber wie so oft ist das Ergebnis natürlich von der Vorlagenqualität abhängig. Hier sind die kommerziellen Tools noch etwas im Vorteil da sie Verzerrungen etc. automatisch korrigieren können. Aber wenn die Qualität stimmt ist auch die Texterkennung bei der OpenSource-Variante fast fehlerfrei.

Grüße Uwe
Bitte warten ..
Mitglied: DerWoWusste
03.11.2014, aktualisiert um 15:40 Uhr
Moin.
Ein Feedback: es wurde nun von uns getestet. Resultate sind laut meinem Kollegen "erschreckend". Kein Vergleich zu Acrobat. Die Qualität der Eingangsdaten stimmte, es wurden Screenshots von Textseiten herangezogen.
Bitte warten ..
Mitglied: colinardo
03.11.2014, aktualisiert um 16:02 Uhr
OK. Ich kann nur sagen das Realworld-Scans mit 300dpi aus einem Magazin hier ordentliche Ergebnisse erzielt haben. Wie hoch aufgelöst waren denn die Screenshots, und wie groß die Schrift?
Acrobat hatte bei meiner Testseite 1 Fehler und OpenSource 2.
Bitte warten ..
Mitglied: DerWoWusste
04.11.2014, aktualisiert um 16:51 Uhr
Screenshot über Windows (Text in Bild und um ein Bild herum, also durchaus schwierig), dann rein in Paint, und als JPG abgespeichert. Dann von AcrobatXI in ein nicht-OCR-PDF wandeln lassen (DPI? Default).
Ergebnisse bei der OCR:
OCRmyPDF-2.1-37.1

Installaticn und Einrichtung
Llgsman installieren
Einstellungen am UPS Manager [UPSMAM
I UPE Manager stsrten
I klick auflfildsrärbced User" um alle Menüs sichtbar au machen
I UPS-Tw] auswählen: „ML-IEIIII”, da unsere nicht unterstütct wird
Da: s cumman icckniwm; clsussms
Scibatcrjrhcalhlcirdhlc ‘llIl «-
Elcvics:
m: mm
fiddacc: Lintcrl Fcut: 57'539
L-‚Cfiifllflcw: lTHLlL-IiHÜE-‘lll 214l T „P5 m: [1
Ü ‘lElIElIEu-Elllfl Gemeine: 5111H. HHFÜIII], Gewinn-
I Im Heiter „System“ fblgendes einstellen:
D Häkchen bei „Enable Lbcal Shutdbwn" setzen
- Fährt den UHU-Server bei Strbrnäusfäll herunter
c: Häkchen bei „lnitiate Shutdbwn alsuayjs sfter ..." und den wert auf„1"setsen
- wenn ein Strcmausfall länger äls eine Minute dauert wird der



Adobe Acrobat XI

Installation und Einrichtung
Upsman installieren
Einstellungen am UPS Manager (UPSMAN)
• UPS Manager starten
• Klick auf „ Advanced User" um alle Menüs sichtbar zu machen
• UPS-Typ auswählen: „ ML-1500", da unsere nicht unterstützt wird
UPSMAN ~
Device 1 System ( Re$ 1 Mai Server 1 Events I
Model:
!Search UPS: l IML-1500 • 11 Serial ·I
Location: AdposMioro·S 1500
Power (VA): 1500 Hold time 1-nl: 7 •
Load (VA): 1500 Rediarge time lh ): 8
Date of Bat!Of)' lnstaßation (00.MM.YYYY): 07.02.2013
Set battef)' health level in % 10 •
Device:
Port: ICOM1 ·I Baudrate: 12400 ·I
Address: L 1 Usten Port: 5769
--
Licencel<ey: 17MUL4X034121 417 UPSIO: 0
1
Reset to FactO<Y ~ 1
[] @ 1995-2013Generex GmbH. Harnbug. Germany.
V 5.8.95
1 Advanoed User 1 1 OK 11 Pllbreehen 1
• 1 m Reit er „ System" folgendes einst ellen:
o Häkchen bei „~ Local Shutdown" setzen
• Fährt den USV-Server bei Stromausfall herunter
o Häkchen bei „ lnit iate Shutdown always after .„" und den Wert auf „1" setzen
• Wenn ein Stromausfall länger als eine Minute dauert wird der

--
[Licensekey verfälscht]
Bitte warten ..
Neuester Wissensbeitrag
Exchange Server

WSUS bietet CU22 für Exchange 2007 SP3 nicht an. EOL Exchange 2007

Tipp von DerWoWusste zum Thema Exchange Server ...

Ähnliche Inhalte
Microsoft
Office Dokumente und PDF-Dateien digital unterschreiben (3)

Frage von eazy-isi zum Thema Microsoft ...

Sonstige Systeme
PDF-OCR Erkennung und verschieben in Ordner wenn Schlagwort enthalten (7)

Frage von SysAdm81 zum Thema Sonstige Systeme ...

Sonstige Systeme
ISOs "UEFI-Fähig" machen (2)

Frage von KMP1988 zum Thema Sonstige Systeme ...

Visual Studio
Herausfinden, ob PDF farbig oder sw ist (2)

Frage von ahstax zum Thema Visual Studio ...

Heiß diskutierte Inhalte
Batch & Shell
gelöst Batch xls nach aktuellem Datum auslesen und email senden (14)

Frage von michi-ffm zum Thema Batch & Shell ...

Windows Server
SBS 2011 Standard virtualisieren (13)

Frage von HeinrichM zum Thema Windows Server ...

Backup
Datensicherung ARCHIV (12)

Frage von fautec56 zum Thema Backup ...

LAN, WAN, Wireless
Per Script auf UniFi-controller zugreifen und WPA2-Key ändern (11)

Frage von Winfried-HH zum Thema LAN, WAN, Wireless ...