Forum: PC-Programmierung Linux nicht numerische Elemente filtern


von Kalkverbrenner (Gast)


Lesenswert?

Hi
ich möchte grad ein ein CSV in eine Datenbank übertragen, etwa 2 
Millionen Zeilen.
Das 3. Element jeder Zeile sollte ein reiner numerischer Wert sein. Es 
gibt aber im csv einige wenige Zeilen, bei dem der entsprechende Wert 
auch noch Punkt, Komma und/oder Bindestrich enthält.
Wie kann ich unter Linux die Zeilen herausfiltern, bei denen das 3. 
Element nicht rein numerisch ist?

von Yalu X. (yalu) (Moderator)


Lesenswert?

Prinzipiell geht das mit grep.

Da aber auch

Kalkverbrenner schrieb:
> Punkt, Komma und/oder Bindestrich

Bestandteile numerischer Werte sein können, müsste erst einmal 
festgelegt werden, was "numerisch" im konkreten Fall genau bedeutet.

: Bearbeitet durch Moderator
von Jemand (Gast)


Lesenswert?

Kann das nicht die Datenbanksoftware machen?

von Kalkverbrenner (Gast)


Lesenswert?

Yalu X. schrieb:
> "numerisch" im konkreten Fall genau bedeutet.

es geht um eine ProduktReferenz
DIe ist immer 12stellig, ohne Punkt, komma oder Bindestrich

Deshalb bestaht das Element normalerweise nur aus Ziffern 0-9

von Lutz (Gast)


Lesenswert?

Was ist denn der Separator in der CSV? Hoffentlich kein Comma;)

von Ein T. (ein_typ)


Lesenswert?

Kalkverbrenner schrieb:
> ich möchte grad ein ein CSV in eine Datenbank übertragen, etwa 2
> Millionen Zeilen.
> Das 3. Element jeder Zeile sollte ein reiner numerischer Wert sein. Es
> gibt aber im csv einige wenige Zeilen, bei dem der entsprechende Wert
> auch noch Punkt, Komma und/oder Bindestrich enthält.
> Wie kann ich unter Linux die Zeilen herausfiltern, bei denen das 3.
> Element nicht rein numerisch ist?

Vielleicht ist csvkit [1] etwas für Dich?

[1] https://csvkit.readthedocs.io/en/latest/

von Yalu X. (yalu) (Moderator)


Lesenswert?

Lutz schrieb:
> Was ist denn der Separator in der CSV? Hoffentlich kein Comma;)

Hoffentlich doch, sonst wäre es ja kein echtes CSV :)

Felder mit Kommata können ja in Anführungszeichen gesetzt werden, damit
die Kommata nicht als Separatoren interpretiert werden. Das Problem ist
nur, dass nicht alle Programme einheitlich mit solchen und anderen
Sonderfällen (bspw. Zeilenumbrüche innerhalb von Textfeldern) umgehen.
Deswegen sollte man sich, bevor man eine CSV-Datei zu verarbeiten
versucht, vergewissern, wie diese aufgebaut ist, welche Zeichen die
Felder enthalten können und wie ggf. Mehrdeutigkeiten behandelt werden.

von foobar (Gast)


Lesenswert?

> Wie kann ich unter Linux die Zeilen herausfiltern, bei denen das 3.
> Element nicht rein numerisch ist?

Mit der Einschränkung, dass awk die Escaping-Regeln von CSV nicht kennt:
1
# awk -F',' '$3 ~ /^[0-9]+$/' datei.csv

von Wendels B. (wendelsberg)


Lesenswert?

Kalkverbrenner schrieb:
> Es
> gibt aber im csv einige wenige Zeilen

Wenn es um ein Einzelstueck geht: per Hand mit dem Texteditor Deiner 
Wahl.

von Russenhocke (Gast)


Lesenswert?

Mit Datenbanken hantieren und schon an solchen Problemchen scheitern,
da ist das Chaos vorprogrammiert.

von Tilo R. (joey5337) Benutzerseite


Lesenswert?

schreib ein Script.
Z.B. in python (oder einer anderen Programmiersprache, die du kannst und 
in der du sowohl mit der DB sprechen als auch das CSV einlesen kannst)

Mit p ≈ 1 ist das eh nicht das letzte Problem in den Eingangsdaten, da 
ist es gut den Import wiederholen zu können.

Importiere vorerst in eine leere Tabelle bis alles passt. Nichts ist 
ärgerlicher als nachträglich Daten in der DB korrigieren zu müssen, 
besonders wenn in der Tabelle noch andere Daten sind.

Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.