Unicode - #189603 (Tests) - Perl-Community.de

haj

2019-01-24 17:03

User since
2015-01-07
569 Artikel
BenutzerIn

user image

2019-01-24T08:14:51 rosti
Quote
Also bitte was hat das mit Windows zu tun? Meinst du der Browser errät aus den den Codeppint das zeichen?

Auch ein Browser bekommt keine Codepoints sondern nur Bytes! UTF-8 ist nur ein Serialize-Algorithmus der dazu dient, Zeichen auf Byteebene abzubilden. Beim Wiederherstellen der Zeichen aus einer Bytesequenz ist der Codepoint völlig uninteressant -- da interessiert einzig die Wertigkeit der Bytes!

MfG

Die Windows-Vermutung (ich schrob ja, das sei geraten) kam aus der ursprünglich vom Server verschickten Bytefolge c3b0 c29f c291 c280 beim Antworten mit Zitat. Aus der ergeben sich direkte Parallelen zur Windows Codepage 1252, wenn man ein naives UTF8-decodieren durchführt.

Das spielt aber keine Rolle mehr, weil der Server inzwischen andere Bytefolgen verschickt - und möglicherweise schon verschickt hat, als Ihr die Tests gemacht habt. Die Ursachen dafür zu diagnostizieren kann aber nur am Server gelingen.

Code: (dl )

1
2
3

Richtige Bytefolge für die Augen:  f0    9f    91      80
Heute gelesene Bytefolge:          c3b0  c5b8  e28098  e282ac
Zu sehen:                          ð     Ÿ     ‘       €

Die Bytesequenz in der zweiten Zeile kommt aus msg #189590.
Die Zeichen, die in den Artikeln mit Zitat sichtbar sind, entsprechen genau denen, die in Wikipedia:

Windows-1252 für die einzelnen Bytes der "richtigen" Bytefolge drinstehen: f0 -> ð usw. Ich denke nicht, dass das ein Zufall ist.