closed
Goto Top

Verschachtelte Ausdrücke parsen

Hi,

ich habe momentan ein Problem verschachtelte Ausdrücke zu parsen. Derzeit schlägt jeder meiner Ansätze fehl, weshalb ich nun auf Hinweise aus der Community hoffe.

Problem:
Ich habe einen String, als Beispiel: "a-b-(((c-d)|e)-(f|g))-((h-i)|(j-k))-l-m"

Der Strich ("-") stellt den nächsten Status auf dem dargestellten Pfad dard und die Pipe ("|") ein oder.
Ich habe im Endeffekt somit einen Pfad mit Verzweigungen.

Gibt es irgendwelche Parser-Libraries, die einem solche Ausdrücke sinnvoll zurück geben?

Ich würde gerne etwas Code einfügen, der meine bisherigen Ansätze demonstriert, aber das bringt leider nicht viel. Die sind alle nicht annähernd praktikabel.

Bin um Hinweise dankbar...

Beste Grüße

Content-Key: 178823

Url: https://administrator.de/contentid/178823

Printed on: May 7, 2024 at 05:05 o'clock

Member: nxclass
nxclass Jan 12, 2012 at 14:38:02 (UTC)
Goto Top
Wenn es sich um Zustände handelt, könnte man einfach so etwas machen:
        $str = 'a-b-(((c-d)|e)-(f|g))-((h-i)|(j-k))-l-m';  
        $search = array( '-', '|' );  
        $replace = array( ' AND ', ' OR ');  
        echo str_replace($search, $replace, $str);
Member: Closed
Closed Jan 12, 2012 at 14:45:02 (UTC)
Goto Top
Ok, ich glaube, dass ich das PRoblem dann nicht deutlich beschrieben habe.

Ich müsse natürlich den Pfad nachbauen können. Sprich ich habe einen Oder-Operator und einen Next-Operator. Diese beiden Operatoren kommen der Reihe nach in ein Array. Es geht konkret eigentlich darum, wie ich die einzelnen Zustände den Objekten zuweisen kann und dabei die Klammerung nicht vernachlässige. Bei einem Oder muss ich somit genau wissen welches der linke Part ist und welches der Rechte etc.

Wenn die Oder-operatoren weg wären, dann wäre das parsen ja easy, aber mit den Oder-Operatoren ist es doch sehr knifflig.
Member: nxclass
nxclass Jan 12, 2012 at 18:52:34 (UTC)
Goto Top
mh ... evtl. als eine XML Sequenz ?
<root>
    <position name="A"/>  
    <position name="B" />  
    <branch>
        <left>
            <position name="C" />  
            <position name="D" />  
        </left>
        <right>
            <position name="E" />  
        </right>
    </branch>
    <branch>
        <left>
            <position name="F" />  
        </left>
        <right>
            <position name="G" />  
        </right>
    </branch>
    <branch>
        <left>
            <position name="H" />  
            <position name="I" />  
        </left>
        <right>
            <position name="J" />  
            <position name="K" />  
        </right>
    </branch>
    <position name="L" />  
    <position name="M" />  
</root>
Member: dog
dog Jan 13, 2012 at 01:24:31 (UTC)
Goto Top
Gibt es irgendwelche Parser-Libraries, die einem solche Ausdrücke sinnvoll zurück geben?

Stichwort: Parser Generatoren.

Wenn du es selber machen willst braucht du wohl einen rekursiven zeichenbasierten Parser mit einem gemeinsamen Zeiger auf den String.

Ich hatte es grade beispielsweise mal fertig geschrieben, aber in dem Moment hat sich mein Editor verabschiedet. face-monkey

Ein zusätzliches Problem ist, dass die Konstrukte
(f|g)
und
(f-e)
eine völlig andere Bedeutung haben, aber der Parser es erst nach dem 3. Zeichen erkennen kann - du würdest es dir leichter machen wenn du andere Klammern benutzt.

Als Denkanstoß mal die ungeprüfte BNF:
<pfad> ::= <titel> <restpfad>

<gruppe> ::= "(" <gruppentyp> ")"  
<gruppentyp> ::= <pfad> | <oder>
<oder> ::= <odertyp> "|" <restoder>  
<odertyp> ::= <titel> | <gruppe>
<restoder ::= <odertyp> | <oder>
<restpfad> ::= | "-" <pfadelement>  
<pfadelement> ::= <pfad> | <gruppe>
<titel> ::= "a" | "b" | ... | z  
Member: Closed
Closed Jan 13, 2012 at 16:37:26 (UTC)
Goto Top
Vielen Dank für die Antworten.
Ich glaube, dass aktuell die XML-Lösung zu präferieren wäre. Die ist sicherlich am saubersten zu parsen.

Die andere Lösung gefällt definitiv, da weiß ich aber nicht wie viel Perfomanz verloren geht. Je nachdem wie verschachtelt die Ausdrücke sind, kann ich mir bei einem rekursiven Ansatz natürlich gut vorstellen, dass die Bearbeitung sehr lange dauert