farbauti
Goto Top

Wie csv Datei mit Kommas in den Daten per RegExp verarbeiten?

Hallo,

ich möchte CSV Dateien mit Regulären Ausdrücken verarbeiten.
Hauptsächlich verlasse ich mich darauf, dass nach dem x.ten Komma, die x.te Spalte ist.
Das klappt aber nicht immer.

Die Herausfoderung ist nun, dass es auch Spalten im CSV gibt, die selbst (ein oder mehrere) Kommas enthalten und mit " maskiert sind.

Ein
/^[^,]*,[^,]*,Treffer/
findet so meistens das Wort "Treffer" in der 3. Spalte.
Aber nicht, wenn die Zeile so aussähe:
123,"dies,das",Treffer,weiter
da hier das Komma im Text dazwischenfunkt.

Ich habe nun schon mit lookaheads und lookbehinds probiert, Kommas zwischen Hochkommas einfach durch Punkte zu ersetzen:
s/((?<=,")[^",]*),([^",]*(?=",))/\$1.\$2/g
das klappt zwar gut für genau 1 Komma, nicht aber für 2+ Kommas in einem Hochkomma-Text.

Hat jemand sowas schonmal gemacht, und kann mir ggf. eine funktionierende RegExp nennen?


viele Grüße, Farbauti.

Content-Key: 188264

Url: https://administrator.de/contentid/188264

Printed on: April 26, 2024 at 19:04 o'clock

Member: bytecounter
bytecounter Jul 19, 2012 at 08:27:35 (UTC)
Goto Top
Hallo,

ganz so einfach klappt das auch leider nicht, denn Dein Script müsste theoretisch alle Kommata, die in Anführungszeichen stehen, ignorieren.

Warum nutzt Du denn nicht einfach Text::CSV aus dem CPAN? Das wäre doch viel einfacher.

vg
Member: Farbauti
Farbauti Jul 19, 2012 at 09:48:24 (UTC)
Goto Top
Ich wollte es nice & simple halten, weil das Script auf verschiedene Rechner deployed werden soll, wo ich nicht weiß, welche Module dort installiert sind.

Ich habe mittlerweile eine akzeptable Lösung selbst gefunden:
s/,(?=[^"]+?(",|"$))/./g

Das ersetzt mir alle Kommas, die vor einem Hochkomma stehen, welches ein Stringende anzeigt (", oder am Zeilenende).

Grüße, Farbauti.