panguu
Goto Top

Aus einer PDF den Textinhalt kopieren, um mit Textverarbeitung zu editieren

Hallo miteinander,

wie kann man aus einem eingescannten Dokument, das als PDF gespeichert wird, den Textinhalt auslesen und ihn so in Microsoft Word oder Libreoffice bearbeiten? Ich hab das mal live gesehen, dass jemand eine PDF eingescannt hatte, und als er sie in seinem Programm geöffnet hatte (ich weiß nicht mehr ob es Adobe Reader oder die Vollversion Adobe Professional war), konnte er mit gedrückter linker Maustaste den Text auswählen und kopieren. Diese Erkennung schien wirklich perfekt zu Laufen. Kann das Adobe Reader auch, oder braucht man dazu die Vollversion Adobe Professional? Wer weiß mehr und könnte mich in die richtige Richtung lenken?

Content-Key: 204885

Url: https://administrator.de/contentid/204885

Printed on: April 16, 2024 at 13:04 o'clock

Member: nikoatit
nikoatit Apr 12, 2013 updated at 08:28:59 (UTC)
Goto Top
Moin,

Adobe Reader kann das nicht.
Aber die Funktion OCR findet man in einigen (auch kostenfreien) Programmen.
Schau mal hier:
http://www.computerbild.de/downloads/office/ocr-software-40243
oder hier:
http://www.heise.de/download/rubrik_21

Gruß
Member: MrNetman
MrNetman Apr 12, 2013 at 08:31:26 (UTC)
Goto Top
Hi Pangu,

Deine Frage ist technisch nicht ganz korrekt.
Aus einer PDF kann man üblicherweise den Text ganz einfach markieren und kopieren. Wenns geschützt ist, dann muss man den Umweg über pdf Creator gehen und ein zweites PDF erzeugen. Deine PDFs haben aber keine Zeichen mehr eingebettet, sondern sind eine Grafik.

Du suchtst aber eine OCR-Software. Optical Character Recognition
Optische Zeichenerkennung.
Dazu gibt es viel Software und vielen Preisklassen ab 0€ aufwärts. Diese erkennen wie ein Mensch die Zeichen aus der Grafik beim Lesen. Somit geht das dann auch mit Fotos ...

Viel Erfolg.
Netman
Member: panguu
panguu Apr 12, 2013 at 09:19:03 (UTC)
Goto Top
@MrNetman: kann ich auch mit AdobeReader den Text rauskopieren aus einer PDF die aus einem eingescannten Dokument entstanden ist? Wenn ja, wie? Ich finde nichts diesbezüglich in der aktuellsten AdobeReader Version. Da gibts ne Möglichkeit Adobe PDFExport zu nutzen, dies ist aber wohl kostenpflichtig.

Gibts denn einen König unter den OCR-Erkenneungsprogrammen, die man sich anschauen sollte? Am liebsten etwas, was ich auch evaluieren/testen könnte. Ich möchte mir sichergehen, dass das auch akzeptabel funktioniert.
Member: MrNetman
MrNetman Apr 12, 2013 at 09:35:24 (UTC)
Goto Top
Gescannte PDFs können keinen Text enthalten. Das sind reine Grafiken.
Aber das rauskopieren von Text kannst du mit anderen PDFs testen.

Es gibt freie OCR Software und etliche Testversionen. Wikipedia hat eine super Seite dazu. http://de.wikipedia.org/wiki/Texterkennung Da sind Grundlagen und Produkte erwähnt.