Thread length() liefert keinen utf-8-Wert
(7 answers)
Opened by t-rex at 2006-08-25 10:27
@doc: Wenn es 8 Bit sind, ist es mit Sicherheit kein UTF-8. In UTF-8 sind (vereinfacht) alle 7-Bit-ASCII Zeichen bis 0x7f mit einem Byte kodiert, alle anderen Zeichen (also auch alle Umlaute usw.) werden mit mindestens zwei Byte kodiert.
Ich brauchte mal eine Übersetzungstabelle Windows<->UTF8, und dabei kam etwa folgendes heraus (ergänzt um die Längenangaben in UTF8): Code: (dl
)
1 #!/usr/local/bin/perl Nun kann man sich utf8.txt und utf8.utf in einem UTF8-fähigen Editor (unter Windows z.B. SciTE oder PSPad - kephra kann das (noch) nicht) anschauen und z.B. mit der Ansicht im Hex-Editor vergleichen.\n\n <!--EDIT|heihon|1158613432--> |