Thread Html-Entities in numerischen Unicode wandeln (7 answers)
Opened by Andy at 2014-05-07 16:15

GwenDragon
 2014-05-07 16:47
#175408 #175408
User since
2005-01-17
14746 Artikel
Admin1
[Homepage]
user image
Guest Andy
Gibt es eine Funktion, mit der ich Html-Entities, wie ä in numerischen HTML-Code, in diesem Fall ä, umwandeln kann?
ncode_entities_numeric aus HTML::Entities ist nicht das richtige?

geht so:
Code (perl): (dl )
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
use HTML::Entities qw(encode_entities_numeric decode_entities);

# Ärger ist das ärgern über das große ß!
my $html = 'Ärger ist, das ärgern über das große ß!';

my $echter_text = decode_entities($html);
my $numerisch_kodiert = encode_entities_numeric($echter_text);

print <<TXT;
$html
-> 
$echter_text
-> 
$numerisch_kodiert
TXT


ergibt:
&Auml;rger ist, das &auml;rgern &uuml;ber das gro&szlig;e &szlig;!
->
Ärger ist, das Ärgern über das große ß!
->
&#xC4;rger ist, das &#xE4;rgern &#xFC;ber das gro&#xDF;e &#xDF;!


//EDIT: Ach so, du willst die dezimalen Entitäten haben. Dann passt das weniger.
Ich präfereriere die Sedezimalen (=Hex...) weil sie manchmal kürzer sind. Kann auch heute noch Speicher und Zeit sparen.

Und die Zuordnung zu Zeichengruppen bei Unicode ist bei Sedezimal einfacher.

Bei א (Hebräischer Buchstabe Aleph) weiß ich bei &#x05D0; wo ich wenn mal nötig, nach den Unicodeblock suchen muss in der Zeichentabelle. Bei &#1488; ist keine Unicodegruppe mehr schnell zu erkennen.

Quote
Mit HTML::Entities kam ich nicht zum Erfolg.
Was hast du probiert?

Editiert von GwenDragon: Hinweis auf Unicodeblöcke bei Hex
Last edited: 2014-05-07 17:09:17 +0200 (CEST)

View full thread Html-Entities in numerischen Unicode wandeln