Hi ich möchte grad ein ein CSV in eine Datenbank übertragen, etwa 2 Millionen Zeilen. Das 3. Element jeder Zeile sollte ein reiner numerischer Wert sein. Es gibt aber im csv einige wenige Zeilen, bei dem der entsprechende Wert auch noch Punkt, Komma und/oder Bindestrich enthält. Wie kann ich unter Linux die Zeilen herausfiltern, bei denen das 3. Element nicht rein numerisch ist?
Prinzipiell geht das mit grep. Da aber auch Kalkverbrenner schrieb: > Punkt, Komma und/oder Bindestrich Bestandteile numerischer Werte sein können, müsste erst einmal festgelegt werden, was "numerisch" im konkreten Fall genau bedeutet.
:
Bearbeitet durch Moderator
Yalu X. schrieb: > "numerisch" im konkreten Fall genau bedeutet. es geht um eine ProduktReferenz DIe ist immer 12stellig, ohne Punkt, komma oder Bindestrich Deshalb bestaht das Element normalerweise nur aus Ziffern 0-9
Was ist denn der Separator in der CSV? Hoffentlich kein Comma;)
Kalkverbrenner schrieb: > ich möchte grad ein ein CSV in eine Datenbank übertragen, etwa 2 > Millionen Zeilen. > Das 3. Element jeder Zeile sollte ein reiner numerischer Wert sein. Es > gibt aber im csv einige wenige Zeilen, bei dem der entsprechende Wert > auch noch Punkt, Komma und/oder Bindestrich enthält. > Wie kann ich unter Linux die Zeilen herausfiltern, bei denen das 3. > Element nicht rein numerisch ist? Vielleicht ist csvkit [1] etwas für Dich? [1] https://csvkit.readthedocs.io/en/latest/
Lutz schrieb: > Was ist denn der Separator in der CSV? Hoffentlich kein Comma;) Hoffentlich doch, sonst wäre es ja kein echtes CSV :) Felder mit Kommata können ja in Anführungszeichen gesetzt werden, damit die Kommata nicht als Separatoren interpretiert werden. Das Problem ist nur, dass nicht alle Programme einheitlich mit solchen und anderen Sonderfällen (bspw. Zeilenumbrüche innerhalb von Textfeldern) umgehen. Deswegen sollte man sich, bevor man eine CSV-Datei zu verarbeiten versucht, vergewissern, wie diese aufgebaut ist, welche Zeichen die Felder enthalten können und wie ggf. Mehrdeutigkeiten behandelt werden.
> Wie kann ich unter Linux die Zeilen herausfiltern, bei denen das 3. > Element nicht rein numerisch ist? Mit der Einschränkung, dass awk die Escaping-Regeln von CSV nicht kennt:
1 | # awk -F',' '$3 ~ /^[0-9]+$/' datei.csv |
Kalkverbrenner schrieb: > Es > gibt aber im csv einige wenige Zeilen Wenn es um ein Einzelstueck geht: per Hand mit dem Texteditor Deiner Wahl.
Mit Datenbanken hantieren und schon an solchen Problemchen scheitern, da ist das Chaos vorprogrammiert.
schreib ein Script. Z.B. in python (oder einer anderen Programmiersprache, die du kannst und in der du sowohl mit der DB sprechen als auch das CSV einlesen kannst) Mit p ≈ 1 ist das eh nicht das letzte Problem in den Eingangsdaten, da ist es gut den Import wiederholen zu können. Importiere vorerst in eine leere Tabelle bis alles passt. Nichts ist ärgerlicher als nachträglich Daten in der DB korrigieren zu müssen, besonders wenn in der Tabelle noch andere Daten sind.
Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.
Bestehender Account
Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen
Mit Google-Account einloggen
Noch kein Account? Hier anmelden.