Ungewöhnliches Verhalten von chr() und encode / decode (gelöst) (Allgemeines zu Perl)

[thread]16545[/thread]

Ungewöhnliches Verhalten von chr() und encode / decode [gelöst]

Tags: perl5 utf-8 unicode encode decode chr Ähnliche Threads

Leser: 23

Articles: hide open all | hide show old branches

+5 replies

mcfaq

2011-07-19 18:43

User since
2011-04-20
20 Artikel
BenutzerIn
[default_avatar]

Hallo Community.

Meine Perl Version ist 5.8.8.

Ich habe folgenden Quelltext :

Code (perl): (dl )

#!/usr/bin/perl
use Encode qw( encode decode );
my $unicode_name_CURRENCY_SIGN = chr(0xa4);
print "In iso-8859-1: <", encode('iso-8859-1',$unicode_name_CURRENCY_SIGN),">\n";
print "In iso-8859-15: <", encode('iso-8859-15',$unicode_name_CURRENCY_SIGN),">\n";
print "In windows-1252: <", encode('cp1252',$unicode_name_CURRENCY_SIGN),">\n";
print "In utf-8: <", encode('utf-8-strict',$unicode_name_CURRENCY_SIGN),">\n";

Folgende Ergebnisse habe ich erhalten, wenn ich auf verschieden eingestellten Terminals dieses Programm laufen lasse:

Terminal Ausgaben.

Darin habe ich die relevante Terminalausgabe, die ich nicht verstehe rot markiert.
Kann mir einer die unterschiedlichen Ergebnisse erklären?

Hier ein Bild der relevanten Codetabelle aus der Wikipedia. Darin habe ich die relevanten Spalten markiert:
Bild von Tabelle mit Codepoints

Ich habe mir folgende Seiten zum Thema unicode durchgelesen (in dieser Reihenfolge):
perlunitut

Creating Unicode

Das Cpan Modul CPAN:

Encode.

Zeichenkodierungen oder „Warum funktionieren meine Umlaute nicht?”

Ich bitte um Erleuchtung.

Danke und Gruß

mcfaq.

+4 replies

moritz

2011-07-19 19:49

User since
2007-05-11
923 Artikel
HausmeisterIn

Also, Schritt für Schritt:

2011-07-19T16:43:10 mcfaq

Code (perl): (dl )

1
2
3

#!/usr/bin/perl
use Encode qw( encode decode );
my $unicode_name_CURRENCY_SIGN = chr(0xa4);

Du erzeugst also ein U+00A4 CURRENCY SIGN (¤)

Quote

Code: (dl )

print "In iso-8859-1: <", encode('iso-8859-1',$unicode_name_CURRENCY_SIGN),">\n";
print "In iso-8859-15: <", encode('iso-8859-15',$unicode_name_CURRENCY_SIGN),">\n";
print "In windows-1252: <", encode('cp1252',$unicode_name_CURRENCY_SIGN),">\n";
print "In utf-8: <", encode('utf-8-strict',$unicode_name_CURRENCY_SIGN),">\n";

Und erzeugst daraus Bytes.

Du musst also nachschauen, was die verschiedenen Zeichenkodierungen aus dem U+00A4 CURRENCY SIGN (¤) machen. Hast du aber in dem Ausschnitt aus der Wikipediatabelle nicht, sondern da hast du geschaut, wobei der Byte-Wert 0xA4 raus kommt.

Schaun wir mal, was dabei heraus kommt:

Code: (dl )

#!/usr/bin/perl
use strict;
use warnings;
use Encode qw( encode decode );
my $unicode_name_CURRENCY_SIGN = chr(0xa4);

sub _hex {
    my $str = shift;
    join '', map sprintf('%02X', ord($_)), split //, $str;

}

for (qw(ISO-8859-1 ISO-8859-15 windows-1252 UTF-8)) {
    printf "%s %s\n", $_, _hex(encode($_, $unicode_name_CURRENCY_SIGN));
}
__END__
ISO-8859-1 A4
ISO-8859-15 3F
windows-1252 A4
UTF-8 C2A4

Diese Bytes bzw. Bytefolge bei UTF-8 "sieht" also dein Terminal.
Da ISO-8859-15 das CURRENCY SYMBOL nicht übersetzen kann (es kann nur das EURO SIGN übersetzen), wird bei ISO-8859-15 ein Fragezeichen (3F) draus.

Wenn das Terminal auf ISO-8859-15 eingestellt ist, wird das Byte A4 als Euro-Zeichen interpretiert, das 3F ist weiterhin ein Fragezeichen.

Ich hoffe, das erklärt für dich das Verhalten, das du siehst. Wenn nicht, schreib einfach, was dir noch unklar ist.

Editiert von moritz: fix markup

Editiert von moritz: fix markup, jetzt aber wirklich
Last edited: 2011-07-19 19:51:32 +0200 (CEST)

Perl 6 - Perls Zukunft

+2 replies
mcfaq

2011-07-20 11:16

User since
2011-04-20
20 Artikel
BenutzerIn

Hallo moritz.

Ja, danke. Jetzt habe ichs verstanden.

Als Erkenntnis aus dem Ganzen gilt also die Regel: "Suche das decodierte Zeichen ("visuell") in der ersten Zeile in der Tabelle. Dann ermittle ausgehend von der Zieldcodetabelle den jeweiligen "Codepoint". Dieser Codepoint wird dann bei der Ausgabe entsprechend der Einstellung der Codetabelle des Terminals verschieden interpretiert.":

Danke auch für die ausführliche Beschreibung und Respekt für den kompliziert anmutenden Code zur Ermittlung der internen Bytedarstellung der Zeichen. Da sieht man mal wieder wie kompliziert aber dafür knapp perl Code sein kann. Das ist jetzt nicht als Kritik gedacht, sondern nur eine Selbsterkenntnis auch aus eigener Erfahrung.

Gruß und bis bald.

mcfaq.
- pq
  
  2011-07-20 12:32
  
  User since
  2003-08-04
  12209 Artikel
  Admin1
  
  habe den thread auf gelöst gesetzt. kannst du das beim nächsten mal selber machen? danke
  Always code as if the guy who ends up maintaining your code will be a violent psychopath who knows where you live. -- Damian Conway in "Perl Best Practices"
  lesen: Wie frage ich & perlintro brian's Leitfaden für jedes Perl-Problem

mcfaq

2011-07-20 14:38

User since
2011-04-20
20 Artikel
BenutzerIn
[default_avatar]

Hallo nochmal.

Ich möchte noch zum Abschluss dieses Threads folgenden Perl Code zum Verständnis des Unterschieds zwischen Binären- und Character-Strings und der Erstellung von Octets hinterlegen:

Code (perl): (dl )

#!/usr/bin/perl
use Encode qw( from_to is_utf8 encode decode );

#Skalare Variable vom Typ String.
#Character-String, weil Zeichen in interner Perl Codierung für Zeichen gespeichert sind.
$euro_char_generated_from_unicode_code_point = chr(0x20AC);

#ergibt: is_utf8: ja
if( is_utf8($euro_char_generated_from_unicode_code_point) ){
  print "\$euro_char_generated_from_unicode_code_point is_utf8: ja \n";  
}
else{
  print "\$euro_char_generated_from_unicode_code_point is_utf8: nein \n";  
}

#ergibt: 8364 == 0x20AC
print 'ord($euro_char_generated_from_unicode_code_point): ',ord($euro_char_generated_from_unicode_code_point), "\n";


#Skalare Variable vom Typ String:
#Byte-String, weil encodierte Zeichen ungleich der internen perl Codierung
#für Strings (Latin 1 (='iso-8859-15') oder Utf-8) sind
$octets_of_euro_in_latin9 = encode('iso-8859-15',chr(0x20AC));

#ergibt: is_utf8: nein
if( is_utf8($octets_of_euro_in_latin9) ){
  print "\$octets_of_euro_in_latin9 is_utf8: ja \n";  
}
else{
  print "\$octets_of_euro_in_latin9 is_utf8: nein \n";  
}

#Skalare Variable vom Typ Zahl. Wert ist 0xA4. Nicht 0x20AC!
$octets_of_euro_in_latin9_zahlenwert = ord($octets_of_euro_in_latin9);

#Skalare Variable vom Typ Zahl. Wert is 0xA6.
#Codepoint für "BROKEN BAR" (|) Zeichen in Unicode und
#LATIN CAPITAL LETTER S WITH CARON in Latin-9 (=iso-8859-15)
$octets_of_LATIN_CAPITAL_LETTER_S_WITH_CARON_zahlenwert = $octets_of_euro_in_latin9_zahlenwert + 2;

#Skalare Variable vom Typ String:
#Byte-String, trotz der Tatsache, dass wir chr() ohne zusätzliche Anwendung der encode Funktion benutzt haben.
#Perl hat sich gemerkt, dass das Argument für chr aus dem Ergebnis der Berechnung mit einem Nicht-Unicode Zeichen stammt.
$octets_of_LATIN_CAPITAL_LETTER_S_WITH_CARON = chr($octets_of_LATIN_CAPITAL_LETTER_S_WITH_CARON_zahlenwert);

#ergibt: is_utf8: nein
if( is_utf8($octets_of_LATIN_CAPITAL_LETTER_S_WITH_CARON) ){
  print "\$octets_of_LATIN_CAPITAL_LETTER_S_WITH_CARON is_utf8: ja \n";  
}
else{
  print "\$octets_of_LATIN_CAPITAL_LETTER_S_WITH_CARON is_utf8: nein \n";  
}

################## Gegenbeispiel Anfang ############

print "\n\nGegensbeispiel fuer chr() mit direktem Zahlenwert ohne Einwirkung des Zahlenwertes einer encodierten Variablen.\n";
#chr() mit Variable initialisiert mit direktem Zahlenwert 0xA6.
$eineZahl = 0xA6;

#Skalare Variable vom Typ String.
#Character-String: BROKEN_BAR Zeichen in Unicode Tabelle
$char_of_BROKEN_BAR = chr($eineZahl);

#ergibt: is_utf8: ja
if( is_utf8($char_of_BROKEN_BAR) ){
  print "\$char_of_BROKEN_BAR is_utf8: ja \n";  
}
else{
  print "\$char_of_BROKEN_BAR is_utf8: nein \n";  
}

print "Gegensbeispiel Ende.\n\n\n";
################## Gegenbeispiel ENDE ############


#Skalare Variable vom Typ String:
#Byte-String, da von einer Codierung auf eine andere Codierung gewechselt wurde. Trotz der Tatsache, das Perl
#intern ebenfalls Char-Strings bei Bedarf in UTF-8 speichert.
from_to($octets_of_LATIN_CAPITAL_LETTER_S_WITH_CARON, "iso-8859-15", "utf-8");

#ergibt das Zeichen LATIN_CAPITAL_LETTER_S_WITH_CARON in einem Terminal, das auf UTF-8 eingestellt ist.
print "\$octets_of_LATIN_CAPITAL_LETTER_S_WITH_CARON: $octets_of_LATIN_CAPITAL_LETTER_S_WITH_CARON\n";

#ergibt: is_utf8: nein
if( is_utf8($octets_of_LATIN_CAPITAL_LETTER_S_WITH_CARON) ){
  print "\$octets_of_LATIN_CAPITAL_LETTER_S_WITH_CARON is_utf8: ja \n";  
}
else{
  print "\$octets_of_LATIN_CAPITAL_LETTER_S_WITH_CARON is_utf8: nein \n";  
}

#ergibt:197 == 0xC5. <-- Warum dieses Ergebnis? Es ist das erste Byte der Octets in
#$octets_of_LATIN_CAPITAL_LETTER_S_WITH_CARON nach from_to() Aufruf.
#Dieses Oktet is der UTF-8 kodierte Codepoint in der Unicode-Tabelle für
#LATIN_CAPITAL_LETTER_S_WITH_CARON = 0x160.
#Die UTF-8 Kodierung der Zahl 0x160 ist: 0xC5A0. Davon das erste Byte = 0xC5 
print 'ord($octets_of_LATIN_CAPITAL_LETTER_S_WITH_CARON): ',ord($octets_of_LATIN_CAPITAL_LETTER_S_WITH_CARON),"\n";

__END__
$euro_char_generated_from_unicode_code_point is_utf8: ja
ord($euro_char_generated_from_unicode_code_point): 8364
$octets_of_euro_in_latin9 is_utf8: nein
$octets_of_LATIN_CAPITAL_LETTER_S_WITH_CARON is_utf8: nein


Gegensbeispiel fuer chr() mit direktem Zahlenwert ohne Einwirkung des Zahlenwertes einer encodierten Variablen.
$char_of_BROKEN_BAR is_utf8: nein
Gegensbeispiel Ende.


$octets_of_LATIN_CAPITAL_LETTER_S_WITH_CARON: Š
$octets_of_LATIN_CAPITAL_LETTER_S_WITH_CARON is_utf8: nein
ord($octets_of_LATIN_CAPITAL_LETTER_S_WITH_CARON): 197

Gruß und Danke.

mcfaq.

View all threads created 2011-07-19 18:43.