Pdf nach inhalt splitten und benennen

hallo,

ich habe eine pdf datei in der sagen wir mal 10000 rechnungen drin sind (gescannt) und ocr-indexiert. die rechnungen sind alle nach dem gleichen schema aufgebaut. es gibt in einem bestimmten bereich das wort "belegnummer" und dahinter ist eine 10stellige zahl.

ziel ist es aus der einen großen pdf viele kleine zu machen. und zwar soll jede rechnung eine pdf datei bekommen und die pdf soll so heissen wie die rechnungsnummer für die entsprechende seite/datei lautet.

kennt jemand eine möglichkeit dies relativ einfach zu realisieren? bin für jeden tip dankbar.

danke und gruss
kai

Please also mark the comments that contributed to the solution of the article

Content-Key: 244329

Url: https://administrator.de/contentid/244329

Printed on: April 25, 2024 at 16:04 o'clock

5 Comments

Latest comment

Hallo,

such mal nach pdf split and merge...

Grüße
veneue

das kann meines wissens nicht nach ocr-inhalt eine automatische trennung vornehmen. aber ich prüfe es nochmal.

Nicht getestet, aber klingt vielversprechend:

http://www.traction-software.co.uk/pdfcontentsplitsa/index.html

http://www.verypdf.com/app/pdf-content-splitter/index.html

Hat jede rechnung gelich viele Seiten oder sind diese unterschiedlich lang?

wenn die alle gleich sind, könnte man die einfgach durch die gängigen Splittools auseinanderdividieren udn dann nochmal OCR drüberjagen.

lks

Salü LKS,

Theologisch ist deine Frage doch Jacke wie Hose?

Ich würd da auf jeder seite mittels findstr nach belegnummer suchen und eine Variable setzen - greift das ins leere (weil seite x von y) sollte die Variable noch die Belegnummer der vorherigen Seite verweisen

Irgendwo hatten wir das doch schonmal mit pdftoolkit gelöst?

Gruß

German Question Batch, Shell Development

Hotly discussed

Check of ZFW Firewallgleixnerd - 5 Comments