Thread XML::LibXML - "Malformed UTF-8 Character (fatal" vermeiden
(11 answers)
Opened by Bob at 2011-05-28 13:48
Hallo rosti,
ich habe das gerade mit Windows getestet. Das Verhalten ist m.E. nicht plausibel. 1. pktms Test sollte zwei Mal 0 liefern, nicht zwei Mal 1, denn der Text ist ja in beiden Fällen nicht UTF8-kodiert. (Will sagen: Enthält keine einzige UTF-8-spezifische Bytesequenz.) 2. Es funktionert korrekt mit Text, der Umlaute enthält. 3. Es funktioniert (natürlich) nicht mit UTF-8-kodiertem Text, der Zeichen aus anderen Zeichensätzen als iso-8859-1 enthält, denn der kann ja nicht in verlustfrei vorübergehend in iso-8859-1 und zurück konvertiert werden. Punkt 3 ist m.E. der Killer. Der Witz bei UTF-8 ist ja gerade, dass Texte prinzipiell beliebig gemischte Zeichensätze enthalten können. Grüße payx |