Top-Themen

Aktuelle Themen (A bis Z)

Administrator.de FeedbackApache ServerAppleAssemblerAudioAusbildungAuslandBackupBasicBatch & ShellBenchmarksBibliotheken & ToolkitsBlogsCloud-DiensteClusterCMSCPU, RAM, MainboardsCSSC und C++DatenbankenDatenschutzDebianDigitiales FernsehenDNSDrucker und ScannerDSL, VDSLE-BooksE-BusinessE-MailEntwicklungErkennung und -AbwehrExchange ServerFestplatten, SSD, RaidFirewallFlatratesGoogle AndroidGrafikGrafikkarten & MonitoreGroupwareHardwareHosting & HousingHTMLHumor (lol)Hyper-VIconsIDE & EditorenInformationsdiensteInstallationInstant MessagingInternetInternet DomäneniOSISDN & AnaloganschlüsseiTunesJavaJavaScriptKiXtartKVMLAN, WAN, WirelessLinuxLinux DesktopLinux NetzwerkLinux ToolsLinux UserverwaltungLizenzierungMac OS XMicrosoftMicrosoft OfficeMikroTik RouterOSMonitoringMultimediaMultimedia & ZubehörNetzwerkeNetzwerkgrundlagenNetzwerkmanagementNetzwerkprotokolleNotebook & ZubehörNovell NetwareOff TopicOpenOffice, LibreOfficeOutlook & MailPapierkorbPascal und DelphiPeripheriegerätePerlPHPPythonRechtliche FragenRedHat, CentOS, FedoraRouter & RoutingSambaSAN, NAS, DASSchriftartenSchulung & TrainingSEOServerServer-HardwareSicherheitSicherheits-ToolsSicherheitsgrundlagenSolarisSonstige SystemeSoziale NetzwerkeSpeicherkartenStudentenjobs & PraktikumSuche ProjektpartnerSuseSwitche und HubsTipps & TricksTK-Netze & GeräteUbuntuUMTS, EDGE & GPRSUtilitiesVB for ApplicationsVerschlüsselung & ZertifikateVideo & StreamingViren und TrojanerVirtualisierungVisual StudioVmwareVoice over IPWebbrowserWebentwicklungWeiterbildungWindows 7Windows 8Windows 10Windows InstallationWindows MobileWindows NetzwerkWindows ServerWindows SystemdateienWindows ToolsWindows UpdateWindows UserverwaltungWindows VistaWindows XPXenserverXMLZusammenarbeit

Tipp Linux Linux Tools

OpenSource Toolbox für die Texterkennung (OCR) um PDF Dokumente durchsuchbar zu machen

Mitglied: colinardo

colinardo (Level 5) - Jetzt verbinden

14.09.2014, aktualisiert 12:26 Uhr, 11669 Aufrufe, 5 Kommentare, 2 Danke

Die Toolbox mit dem Namen OCRmyPDF erledigt mit OpenSource-Tools wie tesseract, ghostscript etc. die Texterkennung und Umwandlung von PDF-Dateien in PDF/A zuverlässig und kostenlos. Es ist ein normales Shell-Script welches nach dem Herunterladen nur noch ausführbar gemacht werden muss (chmod +x OCRmyPDF.sh).

Folgende Pakete sind jedoch Voraussetzung für das Funktionieren des Script's:
Parallel, Poppler-Utils, Imagemagick, Unpaper, Tesseract, Python 2, Ghostscript, Java
Diese lassen sich über die Paketverwaltung des eigenen Systems installieren. Mehr zu den Abhängigkeiten steht in den Release-Notes.

Für die Texterkennung reicht dann z.B. folgender Befehl (Erkennungssprache: Deutsch):
./OCRmyPDF.sh -l deu input.pdf output.pdf
Grüße Uwe
Mitglied: DerWoWusste
14.09.2014 um 23:35 Uhr
Moin.
Danke für den Tipp.
Wie bewertest Du die Qualität, verglichen mit Kommerz wie Acrobat 11 oder aktuellem Abby Fine reader?
Bitte warten ..
Mitglied: colinardo
15.09.2014, aktualisiert um 09:44 Uhr
Hi DWW,
genau verglichen habe ich das noch nicht, aber wie so oft ist das Ergebnis natürlich von der Vorlagenqualität abhängig. Hier sind die kommerziellen Tools noch etwas im Vorteil da sie Verzerrungen etc. automatisch korrigieren können. Aber wenn die Qualität stimmt ist auch die Texterkennung bei der OpenSource-Variante fast fehlerfrei.

Grüße Uwe
Bitte warten ..
Mitglied: DerWoWusste
03.11.2014, aktualisiert um 15:40 Uhr
Moin.
Ein Feedback: es wurde nun von uns getestet. Resultate sind laut meinem Kollegen "erschreckend". Kein Vergleich zu Acrobat. Die Qualität der Eingangsdaten stimmte, es wurden Screenshots von Textseiten herangezogen.
Bitte warten ..
Mitglied: colinardo
03.11.2014, aktualisiert um 16:02 Uhr
OK. Ich kann nur sagen das Realworld-Scans mit 300dpi aus einem Magazin hier ordentliche Ergebnisse erzielt haben. Wie hoch aufgelöst waren denn die Screenshots, und wie groß die Schrift?
Acrobat hatte bei meiner Testseite 1 Fehler und OpenSource 2.
Bitte warten ..
Mitglied: DerWoWusste
04.11.2014, aktualisiert um 16:51 Uhr
Screenshot über Windows (Text in Bild und um ein Bild herum, also durchaus schwierig), dann rein in Paint, und als JPG abgespeichert. Dann von AcrobatXI in ein nicht-OCR-PDF wandeln lassen (DPI? Default).
Ergebnisse bei der OCR:
OCRmyPDF-2.1-37.1

Installaticn und Einrichtung
Llgsman installieren
Einstellungen am UPS Manager [UPSMAM
I UPE Manager stsrten
I klick auflfildsrärbced User" um alle Menüs sichtbar au machen
I UPS-Tw] auswählen: „ML-IEIIII”, da unsere nicht unterstütct wird
Da: s cumman icckniwm; clsussms
Scibatcrjrhcalhlcirdhlc ‘llIl «-
Elcvics:
m: mm
fiddacc: Lintcrl Fcut: 57'539
L-‚Cfiifllflcw: lTHLlL-IiHÜE-‘lll 214l T „P5 m: [1
Ü ‘lElIElIEu-Elllfl Gemeine: 5111H. HHFÜIII], Gewinn-
I Im Heiter „System“ fblgendes einstellen:
D Häkchen bei „Enable Lbcal Shutdbwn" setzen
- Fährt den UHU-Server bei Strbrnäusfäll herunter
c: Häkchen bei „lnitiate Shutdbwn alsuayjs sfter ..." und den wert auf„1"setsen
- wenn ein Strcmausfall länger äls eine Minute dauert wird der



Adobe Acrobat XI

Installation und Einrichtung
Upsman installieren
Einstellungen am UPS Manager (UPSMAN)
• UPS Manager starten
• Klick auf „ Advanced User" um alle Menüs sichtbar zu machen
• UPS-Typ auswählen: „ ML-1500", da unsere nicht unterstützt wird
UPSMAN ~
Device 1 System ( Re$ 1 Mai Server 1 Events I
Model:
!Search UPS: l IML-1500 • 11 Serial ·I
Location: AdposMioro·S 1500
Power (VA): 1500 Hold time 1-nl: 7 •
Load (VA): 1500 Rediarge time lh ): 8
Date of Bat!Of)' lnstaßation (00.MM.YYYY): 07.02.2013
Set battef)' health level in % 10 •
Device:
Port: ICOM1 ·I Baudrate: 12400 ·I
Address: L 1 Usten Port: 5769
--
Licencel<ey: 17MUL4X034121 417 UPSIO: 0
1
Reset to FactO<Y ~ 1
[] @ 1995-2013Generex GmbH. Harnbug. Germany.
V 5.8.95
1 Advanoed User 1 1 OK 11 Pllbreehen 1
• 1 m Reit er „ System" folgendes einst ellen:
o Häkchen bei „~ Local Shutdown" setzen
• Fährt den USV-Server bei Stromausfall herunter
o Häkchen bei „ lnit iate Shutdown always after .„" und den Wert auf „1" setzen
• Wenn ein Stromausfall länger als eine Minute dauert wird der

--
[Licensekey verfälscht]
Bitte warten ..
Ähnliche Inhalte
Webbrowser
Internet Explorer zeigt keine PDFs an "Die Seite kann nicht angezeigt werden"
Tipp von BadgerWebbrowser2 Kommentare

Hatte bei einem User das Problem, dass der Internet Explorer beim öffnen sämtlicher PDFs die Fehlermeldung "Die Seite kann ...

Microsoft Office
Outlook 2016 - Beim Weiterleiten keine PDF Anhänge mehr - KB4011626 entfernen
Erfahrungsbericht von DeepsysMicrosoft Office4 Kommentare

Wenn ihr feststellt das ihr beim Weiterleiten von E-Mails keine PDF Anhänge mehr versendent, dann dankt Microsoft. Diese tolle ...

Viren und Trojaner
Beispiel für gefährliche SPAM E-Mail mit PDF Datei im Anhang
Erfahrungsbericht von SystembastlerViren und Trojaner12 Kommentare

Liebe Admins, kam gestern mit der E-Post. Ganz mieses Gerät, weil PDF im Anhang mit drop box link. Schon ...

Netzwerke
Captive Portal Plus: pfSense Voucher PDF in der WebGUI von pfSense erzeugen oder an einen Netzwerk Bon Drucker senden
Tipp von 117162Netzwerke103 Kommentare

Hallo zusammen, für alle, die gerne nicht ihre Voucher von pfSense in einen andere Anwendung importieren wollen, habe ich ...

Neue Wissensbeiträge
Tipps & Tricks

Solutio Charly Updater Fehlermeldung: Das Abgleichen der Dateien in -Pfad- mit dem Datenobject ist fehlgeschlagen

Tipp von StefanKittel vor 11 StundenTipps & Tricks

Hallo, hier einmal als Tipp für alle unter Euch die mit der Zahnarztabrechnungssoftware Charly von Solutio zu tun haben. ...

Sicherheit

Meltdown und Spectre: Wir brauchen eine "Abwrackprämie", die die CPU-Hersteller bezahlen

Information von Frank vor 11 StundenSicherheit7 Kommentare

Zum aktuellen Thema Meltdown und Spectre: Ich wünsche mir von den CPU-Herstellern wie Intel, AMD oder ARM eine Art ...

Sicherheit

Meltdown und Spectre: Realitätscheck

Information von Frank vor 12 StundenSicherheit8 Kommentare

Die unangenehme Realität Der Prozessorfehler mit seinen Varianten Meltdown und Spectre ist seit Juni 2017 bekannt. Trotzdem sind immer ...

Sicherheit

Meltdown und Spectre: Die machen uns alle was vor

Information von Frank vor 12 StundenSicherheit12 Kommentare

Aktuell sieht es in den Medien so aus, als hätten die Hersteller wie Intel, Microsoft und Co den aktuellen ...

Heiß diskutierte Inhalte
Windows 10
Netbook erkennt Soundkarte nicht - keinerlei Info zum Hersteller und Modell vom Netbook und Hardware bekannt
Frage von 92943Windows 1031 Kommentare

Guten Tag, meine Schwester reist in einigen Wochen für ein paar Monate ins Ausland und hat sich dafür ein ...

Batch & Shell
Anmeldevorgang für Informatikraum (Schule) unter Windows
gelöst Frage von IngenieursBatch & Shell29 Kommentare

Hey zusammen, ich werde in naher Zukunft den Informatik Raum meiner jetzigen Schule von dem aktuellen Betreiber übernehmen (Vertrag ...

Netzwerkgrundlagen
Welches Modem für VDSL 50000 der T-Com
Frage von Windows10GegnerNetzwerkgrundlagen20 Kommentare

Hallo, ein Kollege von mir will sich VDSL50000 von der T-Com holen, um daran einen Server zu betreiben. Ich ...

Batch & Shell
AD-Abfrage in Batchdatei und Ergebnis als Variable verarbeiten
gelöst Frage von Winfried-HHBatch & Shell19 Kommentare

Hallo in die Runde! Ich habe eine Ergänzungsfrage zu einem alten Thread von mir. Ausgangslage ist die Batchdatei, die ...