Forum: PC-Programmierung Problem mit der Kodierung von Umlauten

von Martin (Gast)

16.03.2015 01:05

Lesenswert?

•

Hallo zusammen,

ich hab in Python ein Problem mit der Kodierung von Texten.
Das Programm soll Texte verarbeiten. Dabei ist der Vergleich von Worten 
wichtig. Nun bin ich bei einem Text auf folgendes Problem gestoßen:
>>> 'glücklich' == 'glücklich'
False
>>> u'glücklich' == u'glücklich'
False
>>> 'ü' == 'ü'
False
>>> 'glücklich'.decode('utf-8')
u'glu\u0308cklich'
>>> 'glücklich'.decode('utf-8')
u'gl\xfccklich'

Das Beispiel ist stellvertretend für alle Umlaute in diesem Text.
Ich kenne mit leider mit Kodierungen nicht so sehr aus. Gibt es eine 
Möglichkeit das 'andere' ü in ein für mich bekanntes ü zu verwandeln?

Vielen Dank im Voraus
Liebe Grüße
Martin

Beitrag melden Bearbeiten Thread verschieben Thread sperren Anmeldepflicht aktivieren Anpinnen Thread löschen Thread mit anderem zusammenführen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Problem mit der Kodierung von Umlauten

von Daniel A. (daniel-a)

16.03.2015 02:11

Lesenswert?

•

▲
▼

Du hast einen text im format ISO 8859-1 (extended ascii) und einen in 
UTF-8.

Speichere entweder alles im felben Format, wobei ich utf8 empfehle, oder 
ermittle die Kodierung im python script und convertiere es ensprechend. 
In python sind mir die funktionen encode und decode ein rätsel. Beim 
Konvertieren gibt es immer ein Quell und ein Zielvormat, die encode und 
decode funktionen enthalten aber nicht beide. Versuch mal die encode 
function, viel glück! Kodierungsprobleme sind immer die Hölle.

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Problem mit der Kodierung von Umlauten

von g457 (Gast)

16.03.2015 02:13

Lesenswert?

•

▲
▼

unicodedata.normalize() regelt:

>>> import unicodedata
>>> unicodedata.normalize('NFC', u'Glu\u0308cklich')
u'Gl\xfccklich'
>>> unicodedata.normalize('NFC', u'Gl\xfccklich')
u'Gl\xfccklich'
>>> unicodedata.normalize('NFC', u'Glu\u0308cklich') == unicodedata.normalize('NFC', u'Gl\xfccklich')


Rest steht in der Doku.

HTH

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Re: Problem mit der Kodierung von Umlauten

von Martin (Gast)

16.03.2015 02:45

Lesenswert?

•

▲
▼

Super, Vielen Dank!
War schon am verzweifeln.. aber damit klappt alles.

Vielen Dank nochmal!
lg
Martin

Beitrag melden Bearbeiten Löschen Markierten Text zitieren Antwort Antwort mit Zitat

Thread beobachten |

Seitenaufteilung abschalten

Bitte melde dich an um einen Beitrag zu schreiben. Anmeldung ist kostenlos und dauert nur eine Minute.

Bestehender Account

Schon ein Account bei Google/GoogleMail? Keine Anmeldung erforderlich!
Mit Google-Account einloggen

Noch kein Account? Hier anmelden.

Kontakt/Impressum – Datenschutzerklärung – Nutzungsbedingungen – Werbung auf Mikrocontroller.net