Top-Themen

Aktuelle Themen (A bis Z)

Administrator.de FeedbackApache ServerAppleAssemblerAudioAusbildungAuslandBackupBasicBatch & ShellBenchmarksBibliotheken & ToolkitsBlogsCloud-DiensteClusterCMSCPU, RAM, MainboardsCSSC und C++DatenbankenDatenschutzDebianDigitiales FernsehenDNSDrucker und ScannerDSL, VDSLE-BooksE-BusinessE-MailEntwicklungErkennung und -AbwehrExchange ServerFestplatten, SSD, RaidFirewallFlatratesGoogle AndroidGrafikGrafikkarten & MonitoreGroupwareHardwareHosting & HousingHTMLHumor (lol)Hyper-VIconsIDE & EditorenInformationsdiensteInstallationInstant MessagingInternetInternet DomäneniOSISDN & AnaloganschlüsseiTunesJavaJavaScriptKiXtartKVMLAN, WAN, WirelessLinuxLinux DesktopLinux NetzwerkLinux ToolsLinux UserverwaltungLizenzierungMac OS XMicrosoftMicrosoft OfficeMikroTik RouterOSMonitoringMultimediaMultimedia & ZubehörNetzwerkeNetzwerkgrundlagenNetzwerkmanagementNetzwerkprotokolleNotebook & ZubehörNovell NetwareOff TopicOpenOffice, LibreOfficeOutlook & MailPapierkorbPascal und DelphiPeripheriegerätePerlPHPPythonRechtliche FragenRedHat, CentOS, FedoraRouter & RoutingSambaSAN, NAS, DASSchriftartenSchulung & TrainingSEOServerServer-HardwareSicherheitSicherheits-ToolsSicherheitsgrundlagenSolarisSonstige SystemeSoziale NetzwerkeSpeicherkartenStudentenjobs & PraktikumSuche ProjektpartnerSuseSwitche und HubsTipps & TricksTK-Netze & GeräteUbuntuUMTS, EDGE & GPRSUtilitiesVB for ApplicationsVerschlüsselung & ZertifikateVideo & StreamingViren und TrojanerVirtualisierungVisual StudioVmwareVoice over IPWebbrowserWebentwicklungWeiterbildungWindows 7Windows 8Windows 10Windows InstallationWindows MobileWindows NetzwerkWindows ServerWindows SystemdateienWindows ToolsWindows UpdateWindows UserverwaltungWindows VistaWindows XPXenserverXMLZusammenarbeit

OpenSource Toolbox für die Texterkennung (OCR) um PDF Dokumente durchsuchbar zu machen

Mitglied: colinardo

colinardo (Level 5) - Jetzt verbinden

14.09.2014, aktualisiert 12:26 Uhr, 11914 Aufrufe, 5 Kommentare, 2 Danke

Die Toolbox mit dem Namen OCRmyPDF erledigt mit OpenSource-Tools wie tesseract, ghostscript etc. die Texterkennung und Umwandlung von PDF-Dateien in PDF/A zuverlässig und kostenlos. Es ist ein normales Shell-Script welches nach dem Herunterladen nur noch ausführbar gemacht werden muss (chmod +x OCRmyPDF.sh).

Folgende Pakete sind jedoch Voraussetzung für das Funktionieren des Script's:
Parallel, Poppler-Utils, Imagemagick, Unpaper, Tesseract, Python 2, Ghostscript, Java
Diese lassen sich über die Paketverwaltung des eigenen Systems installieren. Mehr zu den Abhängigkeiten steht in den Release-Notes.

Für die Texterkennung reicht dann z.B. folgender Befehl (Erkennungssprache: Deutsch):
./OCRmyPDF.sh -l deu input.pdf output.pdf
Grüße Uwe
Mitglied: DerWoWusste
14.09.2014 um 23:35 Uhr
Moin.
Danke für den Tipp.
Wie bewertest Du die Qualität, verglichen mit Kommerz wie Acrobat 11 oder aktuellem Abby Fine reader?
Bitte warten ..
Mitglied: colinardo
15.09.2014, aktualisiert um 09:44 Uhr
Hi DWW,
genau verglichen habe ich das noch nicht, aber wie so oft ist das Ergebnis natürlich von der Vorlagenqualität abhängig. Hier sind die kommerziellen Tools noch etwas im Vorteil da sie Verzerrungen etc. automatisch korrigieren können. Aber wenn die Qualität stimmt ist auch die Texterkennung bei der OpenSource-Variante fast fehlerfrei.

Grüße Uwe
Bitte warten ..
Mitglied: DerWoWusste
03.11.2014, aktualisiert um 15:40 Uhr
Moin.
Ein Feedback: es wurde nun von uns getestet. Resultate sind laut meinem Kollegen "erschreckend". Kein Vergleich zu Acrobat. Die Qualität der Eingangsdaten stimmte, es wurden Screenshots von Textseiten herangezogen.
Bitte warten ..
Mitglied: colinardo
03.11.2014, aktualisiert um 16:02 Uhr
OK. Ich kann nur sagen das Realworld-Scans mit 300dpi aus einem Magazin hier ordentliche Ergebnisse erzielt haben. Wie hoch aufgelöst waren denn die Screenshots, und wie groß die Schrift?
Acrobat hatte bei meiner Testseite 1 Fehler und OpenSource 2.
Bitte warten ..
Mitglied: DerWoWusste
04.11.2014, aktualisiert um 16:51 Uhr
Screenshot über Windows (Text in Bild und um ein Bild herum, also durchaus schwierig), dann rein in Paint, und als JPG abgespeichert. Dann von AcrobatXI in ein nicht-OCR-PDF wandeln lassen (DPI? Default).
Ergebnisse bei der OCR:
OCRmyPDF-2.1-37.1

Installaticn und Einrichtung
Llgsman installieren
Einstellungen am UPS Manager [UPSMAM
I UPE Manager stsrten
I klick auflfildsrärbced User" um alle Menüs sichtbar au machen
I UPS-Tw] auswählen: „ML-IEIIII”, da unsere nicht unterstütct wird
Da: s cumman icckniwm; clsussms
Scibatcrjrhcalhlcirdhlc ‘llIl «-
Elcvics:
m: mm
fiddacc: Lintcrl Fcut: 57'539
L-‚Cfiifllflcw: lTHLlL-IiHÜE-‘lll 214l T „P5 m: [1
Ü ‘lElIElIEu-Elllfl Gemeine: 5111H. HHFÜIII], Gewinn-
I Im Heiter „System“ fblgendes einstellen:
D Häkchen bei „Enable Lbcal Shutdbwn" setzen
- Fährt den UHU-Server bei Strbrnäusfäll herunter
c: Häkchen bei „lnitiate Shutdbwn alsuayjs sfter ..." und den wert auf„1"setsen
- wenn ein Strcmausfall länger äls eine Minute dauert wird der



Adobe Acrobat XI

Installation und Einrichtung
Upsman installieren
Einstellungen am UPS Manager (UPSMAN)
• UPS Manager starten
• Klick auf „ Advanced User" um alle Menüs sichtbar zu machen
• UPS-Typ auswählen: „ ML-1500", da unsere nicht unterstützt wird
UPSMAN ~
Device 1 System ( Re$ 1 Mai Server 1 Events I
Model:
!Search UPS: l IML-1500 • 11 Serial ·I
Location: AdposMioro·S 1500
Power (VA): 1500 Hold time 1-nl: 7 •
Load (VA): 1500 Rediarge time lh ): 8
Date of Bat!Of)' lnstaßation (00.MM.YYYY): 07.02.2013
Set battef)' health level in % 10 •
Device:
Port: ICOM1 ·I Baudrate: 12400 ·I
Address: L 1 Usten Port: 5769
--
Licencel<ey: 17MUL4X034121 417 UPSIO: 0
1
Reset to FactO<Y ~ 1
[] @ 1995-2013Generex GmbH. Harnbug. Germany.
V 5.8.95
1 Advanoed User 1 1 OK 11 Pllbreehen 1
• 1 m Reit er „ System" folgendes einst ellen:
o Häkchen bei „~ Local Shutdown" setzen
• Fährt den USV-Server bei Stromausfall herunter
o Häkchen bei „ lnit iate Shutdown always after .„" und den Wert auf „1" setzen
• Wenn ein Stromausfall länger als eine Minute dauert wird der

--
[Licensekey verfälscht]
Bitte warten ..
Ähnliche Inhalte
Windows Tools

WinFile v10.0 Windows NT 4 Datei Manager als OpenSource von Microsoft freigegeben

Information von BassFishFoxWindows Tools2 Kommentare

Microsoft hat seinen Datei Manager aus alten Zeiten (Windows NT4) wiederbelebt und mit minimalen Änderungen als OpenSource auf GitHub ...

Installation

PDF - Autostart (autorun.inf) von einer DVD auf Windows 10 64bit

Anleitung von chrisButterflyInstallation

Einleitung /Problemstellung: Ich habe vor etwas längerer Zeit mir eine Art Bibliothek auf einer DVD eingerichtet. Hierfür habe ich ...

Webbrowser

Internet Explorer zeigt keine PDFs an "Die Seite kann nicht angezeigt werden"

Tipp von BadgerWebbrowser2 Kommentare

Hatte bei einem User das Problem, dass der Internet Explorer beim öffnen sämtlicher PDFs die Fehlermeldung "Die Seite kann ...

Microsoft Office

Outlook 2016 - Beim Weiterleiten keine PDF Anhänge mehr - KB4011626 entfernen

Erfahrungsbericht von DeepsysMicrosoft Office5 Kommentare

Wenn ihr feststellt das ihr beim Weiterleiten von E-Mails keine PDF Anhänge mehr versendent, dann dankt Microsoft. Diese tolle ...

Neue Wissensbeiträge
Video & Streaming

Ruckelfreies Fernsehen auf Smartphone oder Tablet - in SD oder gar HD - Eine Alternative zum Fritz DVB-C Receiver

Anleitung von power-user vor 7 StundenVideo & Streaming1 Kommentar

Wer kennt das nicht: Man möchte gemütlich auf dem Balkon sitzen und vielleicht grillen und dabei das WM-Spiel gucken ...

Erkennung und -Abwehr
Trendmicro WFBS 10 ist in deutsch verfügbar!
Tipp von VGem-e vor 17 StundenErkennung und -Abwehr

Servus Kollegen, downloadbar unter

Windows Update

Microsoft Patchday Juni 2018 - BSOD, obwohl noch kein Patch freigegeben

Erfahrungsbericht von diemilz vor 18 StundenWindows Update4 Kommentare

Hallo zusammen, wir hatten hier letzte Woche ein massives Problem. Alles begann damit, dass ein Mitarbeiter kurz vor Feierabend ...

Microsoft
Shadow Defender
Tipp von Hyrule vor 1 TagMicrosoft

Ich denke viele kennen es: Ein Update oder ein neues Programm und vieles funktioniert nicht mehr wie gewünscht. Die ...

Heiß diskutierte Inhalte
CPU, RAM, Mainboards
ASUS P5W DELUXE startet nur manchmal und nur mit 2 GraKas
Frage von Windows10GegnerCPU, RAM, Mainboards17 Kommentare

Hallo, ich habe das o.g. Motherboard erhalten. Egal ob C2D 8400, Pentium D 945 oder P4 670, das teil ...

Batch & Shell
Powershell Netzwerkdrucker auflisten
gelöst Frage von schiggi85Batch & Shell16 Kommentare

Hallo zusammen, ich möchte mit dem invoke-command bei einem remoteclient die installierten Netzwerkdrucker des Users abfragen. Nur klappt das ...

Outlook & Mail
Nachweis des Löschens einer Email nach DSGVO in Outlook
Frage von linuxadmOutlook & Mail15 Kommentare

Hallo Forum, wie wahrscheinlich viele von Euch kämpfe ich mit der Umsetzung der DSGVO bei meinen Kunden. Konkret geht ...

Exchange Server
Exchange 2013 kein Mail-Versand und -Empfang nach Neustart
Frage von AkroshExchange Server11 Kommentare

Hallo zusammen, ich habe hier ein Problem mit unserem Exchange Server 2013 (VM auf ESXi 6.5). Die Festplatten C ...