Regex - "-" gut, "--" böse

von Martin S. (sirnails)

07.06.2018 12:01

Lesenswert?

•

Hallo,

kurze Frage:

Ausgangsdatensatz:
VT_Float 32 Bit  --  Inductance (Henry)  --  read only  --  -3

Soll per Regex zu vier Gruppen werden:

VT_Float 32 Bit
Inductance (Henry)
read only
-3

1	([A-Za-z0-9\s\_\/]+)*


will nicht so recht. Er erkennt zwischen den Wörtern falsche Gruppen, 
das "-" vor der 3 wird ignoriert.

Testbar hier: https://regex101.com/

Wer kann mir kurz auf die Sprünge helfen? Hänge gerade irgendwie total.

Mahlzeit :-)

Beitrag melden Bearbeiten Thread verschieben Thread sperren Anmeldepflicht aktivieren Anpinnen Thread löschen Thread mit anderem zusammenführen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Regex - "-" gut, "--" böse

von sven (Gast)

07.06.2018 12:16

Lesenswert?

•

▲
▼

Nimm doch string.Split("--")

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Regex - "-" gut, "--" böse

von Datenlutscher (Gast)

07.06.2018 12:31

Lesenswert?

•

▲
▼

Martin S. schrieb:

> Wer kann mir kurz auf die Sprünge helfen? Hänge gerade irgendwie total.
/(VT_Float 32 Bit)  --  (Inductance \(Henry\))  --  (read only)  -- 
(-3)/

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Regex - "-" gut, "--" böse

von Martin S. (sirnails)

07.06.2018 12:39

Lesenswert?

•

▲
▼

Datenlutscher schrieb:
> Martin S. schrieb:
>
>> Wer kann mir kurz auf die Sprünge helfen? Hänge gerade irgendwie total.
> /(VT_Float 32 Bit)  --  (Inductance \(Henry\))  --  (read only)  --
> (-3)/

Hahahaha...

Es gibt natürlich auch noch andere Datensätze. Oder warum sonst würde 
ich mir freiwillig Regex antun?!

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Regex - "-" gut, "--" böse

von Simon B. (nomis)

07.06.2018 12:55

Lesenswert?

•

▲
▼

Martin S. schrieb:

> Ausgangsdatensatz:
> VT_Float 32 Bit  --  Inductance (Henry)  --  read only  --  -3
> Soll per Regex zu vier Gruppen werden:
> VT_Float 32 Bit
> Inductance (Henry)
> read only


Die Lösung von Datenlutscher ist natürlich korrekt aber maximal 
unhilfreich  :)

1	> ([A-Za-z0-9\s\_\/]+)*


Ja, Regexes können schonmal komplex werden. Du suchst hier alle Gruppen, 
die aus einer möglichhst langen Aneinanderreihung von Buchstaben, 
Ziffern, Whitespace und einigen Sonderzeichen bestehen. Das "-" lässt Du 
aus, konsequenterweise wird es auch bei der -3 nicht als Wortbestandteil 
erkannt. Insofern ist schonmal klar, warum diese Regex nicht 
funktioniert.

Meine Lösung sieht so aus:

1	(([^-\s]\|-[^-\s]\|\s+[^-][^-]))(\s--\s*)?


Ich suche eine beliebig lange Abfolge von Zeichenketten die eine der 
drei folgenden Bedingungen erfüllt:
  - es ist ein Zeichen, welches weder ein Whitespace noch ein "-" ist
  - es ist ein "-" gefolgt von einem Zeichen welches weder ein 
Whitespace noch ein "-" ist
  - es ist eine mindestens ein Zeichen lange Folge von Whitespaces plus 
zwei weitere Zeichen, die beide kein "-" sein dürfen

Anschließend kann optional ein Separator folgen.

Für die Erkennung Deiner Tokens ist die 1. Gruppe dieses Regex-Ausdrucks 
relevant.

Übrigens gibt es auch in dieser etwas ausgebauten Regex noch 
corner-Cases bei denen man entscheiden muss ob sie den gewünschten 
Texten entsprechen (mindestens ein einsames "-" wird im Moment nicht 
erkannt).

Einiges der Komplexität in der Regex kommt daher, dass ich rund um den 
Separator beliebig viele Whitespaces erlauben wollte und die nicht in 
meinen Wunschtexten einbezogen haben wollte.

Prinzipiell muss man immer überlegen, ob Regex das Mittel der Wahl ist. 
Der Vorschlag mit dem "split" ist valide und sinnvoll und kann dem 
Problem eher angemessen sein.

Viele Grüße,
        Simon

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Regex - "-" gut, "--" böse

von Datenlutscher (Gast)

07.06.2018 13:10

Lesenswert?

•

▲
▼

Martin S. schrieb:
> Es gibt natürlich auch noch andere Datensätze. Oder warum sonst würde
> ich mir freiwillig Regex antun?!
Wenn du dir mal meine Antwort genau anschaust und mit deinem Versuch 
vergleichst kannst du dir den Rest selbst zusammenreimen was bei deinem 
Ausdruck fehlte.

Ein bisserl mitarbeiten bitte.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Regex - "-" gut, "--" böse

von Martin S. (sirnails)

07.06.2018 13:11

Lesenswert?

•

▲
▼

Deine Lösung hat den Nachteil, dass sie pro echten Treffer drei Gruppen 
erzeugt und dafür jeweiles einen Full match. Das lässt sich in Labview 
so nicht verwenden, weil dort die Gruppen nur auf den ersten Match 
bezogen sind.

Gar nicht mal so leicht zu lösen :-)

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Regex - "-" gut, "--" böse

von Erik (Gast)

07.06.2018 14:22

Lesenswert?

•

▲
▼

([A-Za-z0-9\s\_\(\)]+)\s{2,}--\s{2,}([A-Za-z0-9\s\_\(\)]+)\s{2,}--\s{2,} 
([A-Za-z0-9\s\_\(\)]+)\s{2,}--\s{2,}([-0-9]+)

Nicht schön, aber funktioniert.

Group 1.  0-15  `VT_Float 32 Bit`
Group 2.  21-39  `Inductance (Henry)`
Group 3.  45-54  `read only`
Group 4.  60-62  `-3`

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Regex - "-" gut, "--" böse

von MaWin (Gast)

07.06.2018 15:08

Lesenswert?

•

▲
▼

Warum muss es Regex sein?
Kann es nicht viel einfacher konventionell geparst werden, per Suche 
nach "--"?

Wenn es denn unbedingt Regex sein muss: Sind es immer 4 Gruppen? Dann 
ist die Regex trivial.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Regex - "-" gut, "--" böse

von A. S. (Gast)

07.06.2018 15:17

Lesenswert?

•

▲
▼

Martin, was uns fehlt ist doch die Bedingung, welche Kombinationen denn 
genau gefunden werden soll.

A) Sollen -- und NewLine die einzig erlaubten Trenner sein und alles 
andere wird gefunden?

B) Was ist mit Whitespaces vor und hinter Trennern? Was mit in den 
Gruppen?

C) Gibt es kein "Position after Match"?

D) Kannst Du Gruppen verwenden?

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Regex - "-" gut, "--" böse

von Daniel F. (df311)

07.06.2018 15:20

Lesenswert?

•

▲
▼

/((?:(.+?)\s*?--\s*)|(.+))/
sollte laut https://regex101.com/ passen

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Regex - "-" gut, "--" böse

von MaWin (Gast)

07.06.2018 15:29

Lesenswert?

•

▲
▼

Daniel F. schrieb:
> /((?:(.+?)\s*?--\s*)|(.+))/
> sollte laut https://regex101.com/ passen

nein?

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Regex - "-" gut, "--" böse

von Daniel F. (df311)

08.06.2018 12:09

Lesenswert?

•

▲
▼

MaWin schrieb:
> Daniel F. schrieb:
>> /((?:(.+?)\s*?--\s*)|(.+))/
>> sollte laut https://regex101.com/ passen
>
> nein?

ok, scheinbar ist da beim kopieren irgendwo was verloren gegangen.
tschuldign

aber im prinzip ist es eh wurscht, weil z.b. achims fragen nicht 
beantwortet sind

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Regex - "-" gut, "--" böse

von Martin S. (sirnails)

12.06.2018 09:26

Lesenswert?

•

▲
▼

Daniel F. schrieb:
> aber im prinzip ist es eh wurscht, weil z.b. achims fragen nicht
> beantwortet sind

Mit purer Absicht. War im Urlaub. Arbeit ist Arbeit, Urlaub ist Urlaub. 
Ich will keinen Herzinfarkt mit 57 :-)

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Regex - "-" gut, "--" böse

von Erik (Gast)

12.06.2018 09:29

Lesenswert?

•

▲
▼

Was spricht denn gegen meine Antwort oben?

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Regex - "-" gut, "--" böse

von Martin S. (sirnails)

12.06.2018 09:33

Lesenswert?

•

▲
▼

Achim S. schrieb:
> Martin, was uns fehlt ist doch die Bedingung, welche Kombinationen denn
> genau gefunden werden soll.
>
> A) Sollen -- und NewLine die einzig erlaubten Trenner sein und alles
> andere wird gefunden?

Ja. Die Anzahl der Gruppen ist fix (siehe Beispiel)

> B) Was ist mit Whitespaces vor und hinter Trennern? Was mit in den
> Gruppen?

Die gehören zu den Trennern dazu " -- ".

> C) Gibt es kein "Position after Match"?

Was genau meinst Du damit?

> D) Kannst Du Gruppen verwenden?

Ja.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Regex - "-" gut, "--" böse

von Martin S. (sirnails)

12.06.2018 09:38

Lesenswert?

•

▲
▼

Erik schrieb:
> Was spricht denn gegen meine Antwort oben?

Your regular expression does not match the subject string.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Regex - "-" gut, "--" böse

von Erik (Gast)

12.06.2018 09:58

Lesenswert?

•

▲
▼

Martin S. schrieb:
> Your regular expression does not match the subject string.

Das Board fügt Leerzeichen ein, wenn man es kopiert. Du musst aus beiden 
Zeilen schon eine machen...

Oder meist du ich denke mir die Match Information aus?

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Regex - "-" gut, "--" böse

von Erik (Gast)

12.06.2018 10:00

Lesenswert?

•

▲
▼

https://regex101.com/r/F5tjyr/1

damit das Löschen nicht zu schwer ist

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Regex - "-" gut, "--" böse

von Martin S. (sirnails)

12.06.2018 10:28

Lesenswert?

•

▲
▼

Erik schrieb:
> Martin S. schrieb:
>> Your regular expression does not match the subject string.
>
> Das Board fügt Leerzeichen ein, wenn man es kopiert. Du musst aus beiden
> Zeilen schon eine machen...

Es empfielt sich, solche Blöcke in [ CODE ]-Tags zu packen.

> Oder meist du ich denke mir die Match Information aus?

Nö, aber ein unglücklicher Zustand führte dazu, dass es keinen Match 
gab. Und nein, es liegt nicht daran, dass ich zu blöd zum kopieren bin.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Regex - "-" gut, "--" böse

von Erik (Gast)

12.06.2018 10:29

Lesenswert?

•

▲
▼

Aha, und taugt die Regexp jetzt für dein Vorhaben?

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Regex - "-" gut, "--" böse

von Martin S. (sirnails)

12.06.2018 11:12

Lesenswert?

•

▲
▼

Erik schrieb:
> Aha, und taugt die Regexp jetzt für dein Vorhaben?

Ja, danke.

Mich würde interessehalber trotzdem noch eine möglichst elegante Lösung 
interessieren :-)

Look-aheads und look-behinds sind mir bisher aber noch nicht zugänglich 
geworden.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Regex - "-" gut, "--" böse

von fop (Gast)

21.06.2018 09:58

Lesenswert?

•

▲
▼

1	^\s((?<teilchen>.?)\s--\s){3}(?<teilchen>.?)\s$


Wobei Du nur die mit teilchen benamten Gruppen haben möchtest. Die {3} 
musst Du gegen etwas anderes tauschen, wenn es nicht immer genau 4 
Datensätze pro Zeile sind.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Forum: PC-Programmierung Regex - "-" gut, "--" böse