FileServer automatische PDF-OCR-Umwandlung
Hallo zusammen,
Folgendes Projekt steht bei uns an: abgelegte und zukünftig abzulegende pdf-Dateien sollen automatisch in maschinenlesbares Format (Pdf/A) konvertiert werden, damit diese dann mittels der Windows-Indizierung (Microsoft IFilter) ausgewertet werden können. Umgebung: 3 kleinere Terminal Server (2008 R2 + 2012 R2) + 1 Fileserver (2012)
Anforderungen:
- Umwandlung von 'eingescannten' Pdfs in maschinenlesbare Pdfs (Pdf/A) mittels OCR
- Umwandlung muss automatisch ohne Anwenderinput anlaufen (Überwachung von benutzerdefinierten Ordnern)
Ich habe dazu nun schon etwas recherchiert und die einzigen Produkte die dieses out-of-box unterstützen, scheinen hochspezialisierte Serverlösungen à la ABBYY Recognition Server oder IRISDocument Server zu sein. Diese bieten einen für unsere Zweck viel zu großen Funktionsumfang und liegen zudem auch ziemlich außerhalb des geplanten Budgets.
Gibt es da günstigere Lösungen? Gerne auch unter Nutzungen mehrerer, verschiedener Programme. Von Skriptlösungen (tesseract o.ä.) halte ich eher wenig, da die zu indizierenden Dateien zu sensibel sind und ich Datenverlust/Korruption fürchte..
Danke für eure Antworten,
Ralf
Folgendes Projekt steht bei uns an: abgelegte und zukünftig abzulegende pdf-Dateien sollen automatisch in maschinenlesbares Format (Pdf/A) konvertiert werden, damit diese dann mittels der Windows-Indizierung (Microsoft IFilter) ausgewertet werden können. Umgebung: 3 kleinere Terminal Server (2008 R2 + 2012 R2) + 1 Fileserver (2012)
Anforderungen:
- Umwandlung von 'eingescannten' Pdfs in maschinenlesbare Pdfs (Pdf/A) mittels OCR
- Umwandlung muss automatisch ohne Anwenderinput anlaufen (Überwachung von benutzerdefinierten Ordnern)
Ich habe dazu nun schon etwas recherchiert und die einzigen Produkte die dieses out-of-box unterstützen, scheinen hochspezialisierte Serverlösungen à la ABBYY Recognition Server oder IRISDocument Server zu sein. Diese bieten einen für unsere Zweck viel zu großen Funktionsumfang und liegen zudem auch ziemlich außerhalb des geplanten Budgets.
Gibt es da günstigere Lösungen? Gerne auch unter Nutzungen mehrerer, verschiedener Programme. Von Skriptlösungen (tesseract o.ä.) halte ich eher wenig, da die zu indizierenden Dateien zu sensibel sind und ich Datenverlust/Korruption fürchte..
Danke für eure Antworten,
Ralf
Please also mark the comments that contributed to the solution of the article
Content-Key: 275347
Url: https://administrator.de/contentid/275347
Printed on: April 20, 2024 at 02:04 o'clock
3 Comments
Latest comment
Sers,
schau dir mal AutoOCR an. Wenn dir die Überwachung von nur einem Ordner reicht sollte die Light Version auch passen.
Grüße,
Philip
schau dir mal AutoOCR an. Wenn dir die Überwachung von nur einem Ordner reicht sollte die Light Version auch passen.
Grüße,
Philip