HTML::Entities - decode_entities() erzeugt kein Unicode sondern Latin1 (gelöst) - #195957 (Fragen zu Perl-Modulen)

haj

2024-03-21 13:42

User since
2015-01-07
601 Artikel
BenutzerIn

user image

2024-03-21T12:19:44 rosti
Mein Tipp: Bleibe bei der Bytesemantic.Dann muß lediglich die Kodierung im Suchausdruck dieselbe sein wie die im zu durchsuchenden Text.

Das ist Unsinn. GwenDragon hat geschrieben, dass auch reguläre Ausdrücke möglich sind, und dann nützt das gleiche Encoding gar nichts. Ein /^.$/ matcht in Charakter-Semantik ein einzelnes €, in Byte-Semantik nicht, weil das €-Zeichen als drei Bytes daherkommt.

Code (perl): (dl )

use 5.032;
my $e = "\N{EURO SIGN}";

my $term  = '^.$';
my $term3 = '^...$';
say "Characters mit '$term': " , $e =~ /$term/;  # 1
say "Characters mit '$term3': ", $e =~ /$term3/; # kein Match

{
    use bytes;
    say "Bytes mit '$term': ",  $e =~ /$term/;   # kein Match
    say "Bytes mit '$term3': ", $e =~ /$term3/;  # 1
}