Thread HTML::Entities - decode_entities() erzeugt kein Unicode sondern Latin1
(40 answers)
Opened by GwenDragon at 2024-03-19 12:49
Das ist eine dumme Idee.
Wenn in der Datei dann ein ä drinsteht und Du suchst nach einem a, dann ist das ein Treffer, auch wenn Du im Suchstring die Entities ersetzt. Reguläre Ausdrücke wie qr/\w/ oder qr/\d/ funktionieren nur mit Characters, nicht mit Bytes. Wenn man sowas auf UTF-8-encodierte Strings losläßt, gibt's unsinnige Resultate, und auch bei Entities: Ein ← matcht qr/\w/, weil eben ein "l" und ein "e" usw. drin sind. |