Systematische Fehler (gelöst) (Allgemeines zu Perl)

[thread]21507[/thread]

Systematische Fehler [gelöst]

Tags: perl5 Ähnliche Threads

Leser: 9

Articles: hide open all | hide show old branches

+43 replies
rosti

2023-11-12 10:22
User since
2011-03-19
3561 Artikel
BenutzerIn
Ja es gibt sie: Fehler die ein Programmierer macht in der Annahme daß der Code richtig ist. Und trotzdem ist er fehlerhaft wie z.B. dieser hier:
Code (perl): (dl )

1 2

use utf8; print "Cäsar";
Wobei der Fehler nicht bemerkt wird weil es keine Fehlermeldung gibt.

Schönen Sonntag!
Last edited: 2023-11-12 11:01:14 +0100 (CET)
http://blog.rolfrost.de/

The art of steam.
- +2 replies
- hlubenow
  
  2023-11-12 12:54
  
  User since
  2009-02-22
  877 Artikel
  BenutzerIn
  
  1. Warum ist das fehlerhaft, klär' mich auf?
  
  2. Liegt das nicht eher daran, daß das Modul nicht das macht, was man von ihm erwartet, daß es also gewissermaßen eine Fußangel aufstellt? Ein unerwartetes Verhalten müßte im Modul deutlich gemacht werden, wenigstens gleich ganz am Anfang der Dokumentation.
  - rosti
    
    2023-11-12 13:27
    
    User since
    2011-03-19
    3561 Artikel
    BenutzerIn
    
    Es ist fehlerhaft weil vor der Ausgabe auf STDOUT die Kodierung nicht ausgeschaltet wird. Und der Fehler wird nicht bemerkt weil er von der Umgebung toleriert wird.
    
    Zum Nachvollziehen setze mal das €-Zeichen ein. FM: Wide Character in print...
    http://blog.rolfrost.de/
    
    The art of steam.
- +34 replies
- barney
  
  2023-11-12 16:24
  User since
  2008-08-31
  187 Artikel
  BenutzerIn
  Das Problem ist hier dass Perl nicht weiß in welchen encoding der String "Cäsar" herausgeschrieben werden soll. Der Default ist, dass das interne Encoding genommen wird. Das ist aber unbefriedigend weil das interne Encoding davon abhängt ob der String in latin1 darstellbar ist oder nicht.
  
  Die optimale Lösung für dieses Problem kenne ich nicht. In den Console-Programmen von OTOBO wird Encode::Locale benutzt.
  
  Code: (dl )
  
  1 2 3 4 5 6 7 8 9
  
  $ cat encode_locale.pl use utf8; use Encode::Locale; binmode STDOUT, ':encoding(console_out)'; print "Cäsar\n"; $ perl encode_locale.pl Cäsar
  
  Das ist für den Fall dass das Skript interaktiv aufgerufen wird. Wenn es von einem anderen Skript aufgerufen wird, dann wird die Ausgabe in UTF-8 kodiert.
  - +11 replies
  - rosti
    
    2023-11-12 17:09
    
    User since
    2011-03-19
    3561 Artikel
    BenutzerIn
    
    Auf STDOUT schreiben hieß schon immer: Bytesemantic. D.h., internes Encoding aus. Das gilt generell für alles was nach draußen geht also auch Richtung Datenbanken, Dateien, Socket u. dgl.
    
    MFG
    Last edited: 2023-11-12 17:37:58 +0100 (CET)
    http://blog.rolfrost.de/
    
    The art of steam.
    - +4 replies
    - barney
      
      2023-11-12 17:37
      
      User since
      2008-08-31
      187 Artikel
      BenutzerIn
      
      Nun, etwas zu Encodieren heißt zu entscheiden welche Bytes für welches Ding stehen. Damit sind wir zumindest teilweise d'accord.
      - +3 replies
      - rosti
        
        2023-11-12 17:42
        
        User since
        2011-03-19
        3561 Artikel
        BenutzerIn
        
        Vollkommen richtig. Und welche Bytes das sind, definiert UNICODE. D.h., UNICODE vermittelt zwischen Codepoint und Bytesequenz. Dieser Algorithmus ist in Encode implementiert.
        
        MFG
        http://blog.rolfrost.de/
        
        The art of steam.
        
        +2 replies
        
        rosti
        
        2023-11-13 10:48
        
        User since
        2011-03-19
        3561 Artikel
        BenutzerIn
        
        2023-11-12T16:42:26 rosti
        Vollkommen richtig. Und welche Bytes das sind, definiert UNICODE. D.h., UNICODE vermittelt zwischen Codepoint und Bytesequenz. Dieser Algorithmus ist in Encode implementiert.
        
        MFG
        
        Abders bzw. Besser ausgedrückt: Die Zeichenkodierung legt fest welche Bytesequenz für welches Zeichen steht. Diese Definition hat per se mit UNICODE gar nichts zu tun, sie gilt grundsätzlich für jede Art von Zeichenkodierung.
        http://blog.rolfrost.de/
        
        The art of steam.
        
        barney
        
        2023-11-13 21:51
        
        User since
        2008-08-31
        187 Artikel
        BenutzerIn
        
        Da stimme ich zu.
    - +6 replies
    - GwenDragon
      
      2023-11-13 11:03
      
      User since
      2005-01-17
      14830 Artikel
      Admin1
      
      Ist aber eine Definitionsfrage von was du ausgehst.
      syswrite != print.
      https://perldoc.perl.org/functions/syswrite
      
      Perls print ist eben kein direkter Zugriff auf Linuxs System-Funktion-write()
      Last edited: 2023-11-13 11:05:13 +0100 (CET)
      die Drachin Gwen
      
      Meine Perl-Artikel · perldev – verschiedene Perl-Versionen unter Windows starten
      - +5 replies
      - rosti
        
        2023-11-13 11:11
        
        User since
        2011-03-19
        3561 Artikel
        BenutzerIn
        
        Bittesehr:
        
        Code (perl): (dl )
        
        1 2 3 4
        
        syswrite STDOUT, "€"; # ok use utf8; syswrite STDOUT, "€"; # fatal Error
        
        Fazit: Die ganze Betrachtung dreht sich nur um IO ;)
        
        syswrite:
        
        Quote
        Alternately, if the handle is not
        marked with an encoding but you attempt to write characters with
        code points over 255, raises an exception.
        
        Das ist der Unterschied zu print
        Last edited: 2023-11-13 11:15:54 +0100 (CET)
        http://blog.rolfrost.de/
        
        The art of steam.
        
        +4 replies
        
        GwenDragon
        
        2023-11-13 11:42
        
        User since
        2005-01-17
        14830 Artikel
        Admin1
        
        Perls Handling und "Mitdenken" beim der Ausgabe ist die Hölle. Es ist immer eine "Freude" zu sehen, dass Webserver und Perl zusammenrumpeln und Datenmüll erzeugen.
        Für Leute, die von Linux her kommen und dort nur UTF-8 kennen, ist das extrem nervig.
        Und ich finde es intransparent für Leute, die keine Zig-Jahre Erfahrung mit Perl haben.
        
        Ganz gehässig gesagt, als "Lösung": Es lebe use bytes hoch, hoch, hoch, Tätää, tätää, tätäääää!
        Und/oder grässliche Spielereien mit Encode::encode bzw. decode.
        Last edited: 2023-11-13 11:56:59 +0100 (CET)
        die Drachin Gwen
        
        Meine Perl-Artikel · perldev – verschiedene Perl-Versionen unter Windows starten
        
        +3 replies
        
        rosti
        
        2023-11-13 12:14
        
        User since
        2011-03-19
        3561 Artikel
        BenutzerIn
        
        Die Annahme daß Perl per se Zeichenorientiert funktioniert ist falsch. Und mit LINUX hat das auch nichts zu tun. CGI/1.1 war schon immer byteorientiert. Selbst JavaScript (XHR, Ajax) betrachtet jeden HTTP-Responseheader als Bytesequenz und nicht als eine Folge von Zeichen.
        
        mfg
        http://blog.rolfrost.de/
        
        The art of steam.
        
        +2 replies
        
        GwenDragon
        
        2023-11-13 12:34
        
        User since
        2005-01-17
        14830 Artikel
        Admin1
        
        2023-11-13T11:14:50 rosti
        Die Annahme daß Perl per se Zeichenorientiert funktioniert ist falsch.
        genügend Menschen sind verleitet zu glauben, dass "Höhere" Interpreter-Sprachen alles regeln (no ’ne Art Do-what-I-mean). Denen sind Grundlagen doch eher unbekannt.
        Und ohne Modulcode einzusehen oder Testcases zu schreiben, aus der Notwendigkeit kommt eine:r nicht immer raus.
        die Drachin Gwen
        
        Meine Perl-Artikel · perldev – verschiedene Perl-Versionen unter Windows starten
        
        rosti
        
        2023-11-13 14:01
        
        User since
        2011-03-19
        3561 Artikel
        BenutzerIn
        
        2023-11-13T11:34:28 GwenDragon
        2023-11-13T11:14:50 rosti
        Die Annahme daß Perl per se Zeichenorientiert funktioniert ist falsch.
        genügend Menschen sind verleitet zu glauben, dass "Höhere" Interpreter-Sprachen alles regeln (no ’ne Art Do-what-I-mean). Denen sind Grundlagen doch eher unbekannt.
        Und ohne Modulcode einzusehen oder Testcases zu schreiben, aus der Notwendigkeit kommt eine:r nicht immer raus.
        
        Diese Grundhaltung ist eher bei PHP-Programmierern verbreitet.
        
        mfg
        http://blog.rolfrost.de/
        
        The art of steam.
  - +22 replies
  - rosti
    
    2023-11-12 19:16
    
    User since
    2011-03-19
    3561 Artikel
    BenutzerIn
    
    PS: Deinen Code habe ich mal getestet. Damit wird auch die Kodierung der Konsole geprüft und wenn es irgendwo einen mismatch gibt legt das Script die Ohren an. Z.B. wenn use utf8; nicht notiert ist.
    
    Was zu prüfen wäre ist, ob dieses Konstrukt auch über den CGI/1.1 funktioniert und genau da gibt es das Problem daß CGI/1.1 die Kodierung der Konsole gar nicht kennt. Um dem gerecht zu werden müsste man ein binmode STDOUT, ':encoding(utf8)'; notiern auch um somit die Portability zu sichern.
    
    Auf diesen ganzen Hick-Hack kann man aber auch verzichten indem man die Kodierung gar nicht erst mit use utf8; einschaltet, denn ein print "€"; hat schon immer die richtigen Bytes ausgegeben vorausgesetzt man hat den Editior angewiesen die Scriptdatei in utf8 zu speichern.
    
    Schönen Sonntag ;)
    http://blog.rolfrost.de/
    
    The art of steam.
    - +2 replies
    - barney
      
      2023-11-13 09:03
      
      User since
      2008-08-31
      187 Artikel
      BenutzerIn
      
      In meinem Beispielsprogramm habe ich explizit gesagt dass es sich um die Konsole-Programme von OTOBO handelt. In der Webapp wird es anders gemacht.
      - rosti
        
        2023-11-13 09:27
        
        User since
        2011-03-19
        3561 Artikel
        BenutzerIn
        
        2023-11-13T08:03:08 barney
        In meinem Beispielsprogramm habe ich explizit gesagt dass es sich um die Konsole-Programme von OTOBO handelt. In der Webapp wird es anders gemacht.
        
        Konsole ist IO. IO heißt bytes. Jede Benutzereingabe bekommt Perl als Bytesequenz. Auch in OTOBO. Egal ob von der Konsole oder vom Browser oder aus sonstigen Fensterchen.
        
        MFG
        http://blog.rolfrost.de/
        
        The art of steam.
    - +19 replies
    - barney
      
      2023-11-13 10:26
      
      User since
      2008-08-31
      187 Artikel
      BenutzerIn
      
      2023-11-12T18:16:39 rosti
      Auf diesen ganzen Hick-Hack kann man aber auch verzichten indem man die Kodierung gar nicht erst mit use utf8; einschaltet, denn ein print "€"; hat schon immer die richtigen Bytes ausgegeben vorausgesetzt man hat den Editior angewiesen die Scriptdatei in utf8 zu speichern.
      
      Rosti, du meinst wahrscheinlich das genau richtig, aber die Formulierung ist ein bisschen ungenau. use utf8; hat keinen Einfluss wie eingehende Bytes interpretiert werden. Da geht es nur darum wie die Bytes im Programmcode interpretiert werden.
      - +18 replies
      - rosti
        
        2023-11-13 10:57
        
        User since
        2011-03-19
        3561 Artikel
        BenutzerIn
        
        Und so kommen wir auf das ursprüngliche Thema zurück. Der Fakt nämlich daß auch die Scriptdatei selbst gar keine Zeichenkodierung kennt. Also daß alles was in der Scriptdatei drinsteht eben nur Bytesequenzen sind wie in jeder anderen Datei.
        http://blog.rolfrost.de/
        
        The art of steam.
        
        +17 replies
        
        barney
        
        2023-11-13 20:11
        
        User since
        2008-08-31
        187 Artikel
        BenutzerIn
        
        Ja, natürlich. use utf8; gibt Perl bekannt, dass es die Bytes im aktuellen Sichtbarkeitsbereich Unicode Codepoints kodieren. Das ist interessanter Fakt der von niemanden in diesem Gesprächsfaden in Abrede gestellt worden ist.
        
        +16 replies
        
        rosti
        
        2023-11-13 20:37
        
        User since
        2011-03-19
        3561 Artikel
        BenutzerIn
        
        binmode STDOUT, ':encoding(console_out)'; sorgt dafür daß die interne Kodierung für die Ausgabe auf STDOUT abgeschaltet wird. Aber nur dann wenn die interne Kodierung mit der von der Konsole benutzten Kodierung übereinstimmt.
        
        Welche Zeichenkodierung jedoch in der Scriptdatei vorliegt ist allein durch die aus der Datei gelesenen Bytes gegeben. D.h., welche Kodierung beim Speichern der Datei angegeben wurde. Ein use utf8; hat auf Letzteres gar keinen Einfluß.
        
        mfg
        http://blog.rolfrost.de/
        
        The art of steam.
        
        +15 replies
        
        barney
        
        2023-11-13 21:28
        
        User since
        2008-08-31
        187 Artikel
        BenutzerIn
        
        Sorry, deine Ausführungen verwirren mich mehr als sie mich erleuchten.
        
        Quote
        binmode STDOUT, ':encoding(console_out)'; sorgt dafür daß die interne Kodierung für die Ausgabe auf STDOUT abgeschaltet wird. Aber nur dann wenn die interne Kodierung mit der von der Konsole benutzten Kodierung übereinstimmt.
        
        Ich weiß nicht was "interne Kodierung abschalten" bedeuten soll. Bei ':encoding(console_out)' wird doch nur das Terminal gefragt welches Encoding das Terminal erwartet. Das ist dann so etwas wie 'ascii', 'latin1' oder 'utf8'. Wenn ein String auf STDOUT herausgeschrieben wird, dann wird dieser entsprechend kodiert. Ob das möglich ist oder nicht hängt vom String und vom gewünschten Encoding ab. Der Unicode Codepoint € kann nicht als latin1 kodiert werden, also kommt der "Wide character in print" Fehler. Die Bytefolge E2 82 AC können problemlos als latin1 herausgeschrieben werden, weil in diesem Fall einfach die drei Bytes herausgeschrieben werden.
        
        Quote
        Welche Zeichenkodierung jedoch in der Scriptdatei vorliegt ist allein durch die aus der Datei gelesenen Bytes gegeben. D.h., welche Kodierung beim Speichern der Datei angegeben wurde. Ein use utf8; hat auf Letzteres gar keinen Einfluß.
        
        Ja natürlich. Ein use utf8; hat keinen Einfluss welche Bytes sich im Rest der Datei befinden. Das ist wahr, aber warum das erwähnenswert ist kapiere ich nicht.
        
        +14 replies
        
        rosti
        
        2023-11-14 07:08
        
        User since
        2011-03-19
        3561 Artikel
        BenutzerIn
        
        Quote
        Ich weiß nicht was "interne Kodierung abschalten" bedeuten soll. Bei ':encoding(console_out)' wird doch nur das Terminal gefragt welches Encoding das Terminal erwartet. Das ist dann so etwas wie 'ascii', 'latin1' oder 'utf8'. Wenn ein String auf STDOUT herausgeschrieben wird, dann wird dieser entsprechend kodiert.
        
        Nein, da liegst Du völlig falsch. Das Encoding der Konsole gilt nämlich nur für die Konsole und legt fest, wie die zu Zeichen gehörigen Bytesequenzen darzustellen sind. Was ':encoding(console_out)' macht ist also kein Handshake, Deine Annahme das damit das Terminal befragt wird ist falsch. Ein Terminal erwartet keine Encoding sondern Bytesequenzen. Encodings gelten nur innerhalb von Programmen. Ebenso gilt ein für die Konsole eingestelltes Encoding eben nur für die Konsole.
        
        Viele Grüße!
        http://blog.rolfrost.de/
        
        The art of steam.
        
        +2 replies
        
        rosti
        
        2023-11-14 08:54
        
        User since
        2011-03-19
        3561 Artikel
        BenutzerIn
        
        Anders ausgedrückt: Anzunehmen daß
        
        Code (perl): (dl )
        
        1 2
        
        use utf8; binmode STDOUT, ':encoding(console_out)';
        
        zusammenpassen ist ein systematischer Fehler.
        
        MFG
        http://blog.rolfrost.de/
        
        The art of steam.
        
        barney
        
        2023-11-14 09:35
        
        User since
        2008-08-31
        187 Artikel
        BenutzerIn
        
        Im Programmschnippselchen fehlt zumindest das use Encode::Locale;.
        
        +11 replies
        
        barney
        
        2023-11-14 09:37
        
        User since
        2008-08-31
        187 Artikel
        BenutzerIn
        
        Quote
        Das Encoding der Konsole gilt nämlich nur für die Konsole und legt fest, wie die zu Zeichen gehörigen Bytesequenzen darzustellen sind.
        
        Genau, bzw. ich hätte es andersherum gesagt, wie die Bytesquenzen als Zeichen zu interpretieren und darzustellen sind.
        
        Quote
        Was ':encoding(console_out)' macht ist also kein Handshake, Deine Annahme das damit das Terminal befragt wird ist falsch.
        
        Da hast du mich verloren. Das ':encoding(console_out)' befragt das Terminal nicht, da passiert ja schon beim Laden von Encode::Locale. Aber ich vermute dass du etwas anderes meinst.
        Siehe https://metacpan.org/pod/Encode::Locale#DESCRIPTIO... anders.
        
        Quote
        For programs running in a terminal window (called a "Console" on some systems) the "locale" encoding is usually a good choice for what to expect as input and output. Some systems allows us to query the encoding set for the terminal and Encode::Locale will do that if available and make these encodings known under the Encode aliases "console_in" and "console_out". For systems where we can't determine the terminal encoding these will be aliased as the same encoding as "locale". The advice is to use "console_in" for input known to come from the terminal and "console_out" for output to the terminal.
        
        Folgenden Satz verstehe ich überhaupt nicht.
        
        Quote
        Ein Terminal erwartet keine Encoding sondern Bytesequenzen.
        
        Was soll das bedeuten? Ein Unicode Codepoint der in einen bestimmten Encoding kodiert ist, ist doch eine Bytesequenz.
        
        +10 replies
        
        rosti
        
        2023-11-14 09:59
        
        User since
        2011-03-19
        3561 Artikel
        BenutzerIn
        
        Quote
        Ein Terminal erwartet keine Encoding sondern Bytesequenzen.
        
        Heißt, daß das Encoding eines Terminals nur intern, also für das Terminal selbst gilt. Daß ein Terminal/Console Bytesequenzen erwartet ist schon immer so gewesen. Wenn ein Terminal die Bytesequenz E2 82 AC bekommt, stellt es nur dann das Eurozeichen dar wenn am Terminal die Kodierung utf8 eingestellt ist.
        
        Quote
        Ein Unicode Codepoint der in einen bestimmten Encoding kodiert ist, ist doch eine Bytesequenz.
        
        Nein. Der Codepoint sagt überhaupt nichts über die Kodierung aus. Bspw. hat das 'ä' den Codepoint U+E4 und kann verschieden kodiert sein, also auch Latin1 oder ANSI. Somit ist der Codepoint nur ein numerischer Identifier für ein Zeichen.
        
        Viele Grüße!
        http://blog.rolfrost.de/
        
        The art of steam.
        
        +9 replies
        
        barney
        
        2023-11-14 10:07
        
        User since
        2008-08-31
        187 Artikel
        BenutzerIn
        
        Mit
        
        Quote
        Ein Unicode Codepoint der in einen bestimmten Encoding kodiert ist, ist doch eine Bytesequenz.
        
        wollte ich nicht sage das Codepoints ein bestimmtes Encoding haben, sondern dass man eine Bytesequenz erhält wenn man einen Codepoint kodiert. Also genau wie du geschrieben hast.
        
        Quote
        Nein. Der Codepoint sagt überhaupt nichts über die Kodierung aus. Bspw. hat das 'ä' den Codepoint U+E4 und kann verschieden kodiert sein, also auch Latin1 oder ANSI. Somit ist der Codepoint nur ein numerischer Identifier für ein Zeichen.
        
        Da sind wir uns einig.
        
        Mein Verständniss was du mit
        
        Quote
        Ein Terminal erwartet keine Encoding sondern Bytesequenzen.
        
        hat sich damit aber nicht verbessert.
        
        +8 replies
        
        rosti
        
        2023-11-14 10:30
        
        User since
        2011-03-19
        3561 Artikel
        BenutzerIn
        
        Tut mir leid, das Verständnis für Bytesemantics mußt Du schon selbst entwickeln. Vielleicht noch ein Hinweis:
        
        Das Byte ist die kleinste Speichereinheit der Datenhaltung. IO ist Low-Level und da gilt grundsätzlich Bytesemantic, das war schon immer so. Konsole ist IO, print schreibt auf STDOUT per default. Und STDOUT kennt keine Kodierung sondern erwartet Bytes.
        
        Code (perl): (dl )
        
        1 2
        
        use Encode::Locale; binmode(STDOUT, ":encoding(console_out)");
        
        führt bestenfalls zu einer Fehlermeldung sofern die perlinterne Kodierung mit der Konsolekonfiguration nicht übereinstimmt. Auf die Kodierung selbst hat dieses Konstrukt keinen Einfluß.
        
        MFG
        http://blog.rolfrost.de/
        
        The art of steam.
        
        +7 replies
        
        barney
        
        2023-11-14 11:27
        
        User since
        2008-08-31
        187 Artikel
        BenutzerIn
        
        2023-11-14T09:30:48 rosti
        Konsole ist IO, print schreibt auf STDOUT per default. Und STDOUT kennt keine Kodierung sondern erwartet Bytes.
        
        Code (perl): (dl )
        
        1 2
        
        use Encode::Locale; binmode(STDOUT, ":encoding(console_out)");
        
        führt bestenfalls zu einer Fehlermeldung sofern die perlinterne Kodierung mit der Konsolekonfiguration nicht übereinstimmt. Auf die Kodierung selbst hat dieses Konstrukt keinen Einfluß.
        
        Das stimmt doch nicht. Intern liegt das ä von Cäsar entweder in latin1 kodiert als E4 oder in utf-8 kodiert als C3 A4 vor. Ich nehme mal an dass ":encoding(console_out)" ein Alias für "utf-8" ist. Mit den obigen Anweisung weiß Perl dass es in beiden Fällen ein C3 A4 raus schicken muss wenn das ä auf STDOUT ausgegeben werden soll. Das ist doch normale IO-Layer Funktionalität und führt zu keinen Fehler.
        
        +6 replies
        
        rosti
        
        2023-11-14 11:42
        
        User since
        2011-03-19
        3561 Artikel
        BenutzerIn
        
        Das liegt daran daß die Kodierung des 'ä' toleriert wird. 'Von daher auch keine Fehlermeldung. Weil: Es findet eine Umkodierung statt!
        
        Mit
        
        Code (perl): (dl )
        
        1 2 3
        
        binmode(STDOUT, ":utf8"); my $bytes = pack "C", 0xE4; # ISO-8859-1, Latin1 print $bytes;
        
        wird das Zeichen einfach nur umkodiert und die Konsole bekommt die Bytes für ein utf-8-kodiertes 'ä'.
        
        Wenn Du jedoch
        
        Code (perl): (dl )
        
        1 2 3
        
        binmode(STDOUT, ":utf8"); my $bytes = pack "CCC", 0xE2, 0x82, 0xAC; print $bytes;
        
        notierst kommt Müll anstelle des Eurozeichen-
        http://blog.rolfrost.de/
        
        The art of steam.
        
        +5 replies
        
        barney
        
        2023-11-14 12:09
        
        User since
        2008-08-31
        187 Artikel
        BenutzerIn
        
        Ja, klar. Wenn ich explizite Bytes raus schreiben will dann darf ich den IO-Layer für 'utf-8' nicht einschalten.
        
        Der Vollständigkeit halber noch ein Beispiel im dem ich eine Bytesequenz habe die einen Codepoint kodiert. Vor dem Rausschreiben will ich damit aber noch etwas mehr oder weniger Sinnvolles machen:
        
        Code: (dl )
        
        1 2 3 4 5 6
        
        binmode(STDOUT, ":utf8"); my $bytes = pack "CCC", 0xE2, 0x82, 0xAC; utf8::decode($bytes); if ($bytes =~ m/\p{Currency_Symbol}/ ) { print "$bytes is a currency symbol\n"; }
        
        rosti
        
        2023-11-14 12:31
        
        User since
        2011-03-19
        3561 Artikel
        BenutzerIn
        
        Die Zeckbestimmung des Layer ':utf8' ist nicht die Umkodierung nach UTF-8 sondern das Abschalten der internen utf8-Kodierung.
        
        Von daher liefert
        
        Code (perl): (dl )
        
        1 2 3
        
        binmode(STDOUT, ":utf8"); my $bytes = pack "CCC", 0xE2, 0x82, 0xAC; print $bytes;
        
        Datenmüll weil es für $bytes keine interne Kodierung gab.
        http://blog.rolfrost.de/
        
        The art of steam.
        
        +2 replies
        
        rosti
        
        2023-11-14 12:36
        
        User since
        2011-03-19
        3561 Artikel
        BenutzerIn
        
        2023-11-14T11:09:48 barney
        Ja, klar. Wenn ich explizite Bytes raus schreiben will dann darf ich den IO-Layer für 'utf-8' nicht einschalten.
        
        Der Vollständigkeit halber noch ein Beispiel im dem ich eine Bytesequenz habe die einen Codepoint kodiert. Vor dem Rausschreiben will ich damit aber noch etwas mehr oder weniger Sinnvolles machen:
        
        Code: (dl )
        
        1 2 3 4 5 6
        
        binmode(STDOUT, ":utf8"); my $bytes = pack "CCC", 0xE2, 0x82, 0xAC; utf8::decode($bytes); if ($bytes =~ m/\p{Currency_Symbol}/ ) { print "$bytes is a currency symbol\n"; }
        
        Das matcht auch mit {Symbol}!
        http://blog.rolfrost.de/
        
        The art of steam.
        
        barney
        
        2023-11-14 12:41
        
        User since
        2008-08-31
        187 Artikel
        BenutzerIn
        
        Quote
        Das matcht auch mit {Symbol}!
        
        Stimmt. In dem Beispiel interessiert mich aber eben ob das Zeichen ein Währungssymbol ist, nicht ob es allgemeines Symbol ist.
        
        rosti
        
        2023-11-15 10:05
        
        User since
        2011-03-19
        3561 Artikel
        BenutzerIn
        
        Als Ergänzung: Symbol/Unicode
        
        siehe https://en.wikipedia.org/wiki/Template:General_Cat...
        
        Currency_Symbol => Sc (Kürzel in der Unicode Datenbank, Feld general_category)
        
        Smileys fallen unter So (Sonstiges Symbol)
        http://blog.rolfrost.de/
        
        The art of steam.
- +6 replies
- hlubenow
  
  2023-11-14 12:16
  
  User since
  2009-02-22
  877 Artikel
  BenutzerIn
  
  Encodings sind das Thema, das mich wohl am allerwenigsten interessiert.
  Wenn ihr da versiert seid, könnt ihr da nicht mal ein Modul schreiben, das den Quatsch wirklich regelt und einfach macht?
  
  Mich interessieren einfach nur "Latin1" ("ISO-8859-1") und "Unicode"/"UTF-8" oder wie das heißt. Zwischen den beiden will ich auf einfache Weise hin- und herkonvertieren können, und ich will sicher sein, daß das im Skript akzeptiert wird (also die Umlaute), und daß das dann auf der Konsole und überall woanders auch korrekt ausgegeben wird.
  
  Also, keine Seminare darüber abhalten, sondern ein Modul schreiben, das mir und anderen dieses blöde Thema endgültig vom Hals schafft.
  - +5 replies
  - barney
    
    2023-11-14 12:36
    
    User since
    2008-08-31
    187 Artikel
    BenutzerIn
    
    Mit diesem Wunsch bin zumindest ich überfordert. Ich halte mich an die einfache Regel:
    * Eingabe dekodieren
    * Ausgabe enkodieren
    
    Die Umwandlung selbst ist mit den Modulen utf8 und in Sonderfällen Encode ziemlich einfach. Die Schwierigkeit ist es meistens zu eruieren was tatsächlich reinkommt und was tatsächlich rausgehen soll.
    
    Und wenn dann Module wie DBD::mysql und DBD::MariaDB dieselbe Sache mit grundlegend anderen Ansätzen machen, dann bin ich auch entnervt.
    - +4 replies
    - rosti
      
      2023-11-14 13:04
      
      User since
      2011-03-19
      3561 Artikel
      BenutzerIn
      
      Die Grundsätze sind dieselben. Sofern die Perlinterne Kodierung verwendet wurde ist diese vor der Übergabe an das DBH-Socket auszuschalten. Genau dafür sorgt das DBH-Attribut {mysql_enable_utf8}
      
      MFG
      http://blog.rolfrost.de/
      
      The art of steam.
      - +3 replies
      - barney
        
        2023-11-14 14:00
        
        User since
        2008-08-31
        187 Artikel
        BenutzerIn
        
        Ich hatte bei meiner Bemerkung https://github.com/RotherOSS/otobo/issues/2559 im Kopf. Da hätte ich gerne von DBD::mysql auf DBD::MariaDB gewechselt. Das haben wir aber bleiben lassen weil die zwei Module unterschiedliche Ansätze bzgl. der Encoding-Problematik verfolgen. Da war der Umstellungs- und Test-Aufwand zu groß.
        
        Ironischerweise macht es DBD::MariaDB aus meiner Sicht richtiger, aber man muss irgendwo auch pragmatisch bleiben.
        
        +2 replies
        
        rosti
        
        2023-11-14 14:18
        
        User since
        2011-03-19
        3561 Artikel
        BenutzerIn
        
        Bei mir gab es gar keine Probleme mit UTF-8 bei der Umstellung von MySQL nach MariaDB. Probleme gibt es nur wenn man diese grundlegenden Dinge im Umgang mit Zeichenkodierungen nicht beachtet. MFG
        http://blog.rolfrost.de/
        
        The art of steam.
        
        barney
        
        2023-11-14 14:58
        
        User since
        2008-08-31
        187 Artikel
        BenutzerIn
        
        In OTOBO gab es auch keine Probleme. Ich habe nur den Aufwand vermieden der für den Umstieg von DBD::mysql auf DBD::MariaDB nötig wäre. Ferner habe ich den Aufwand vermieden mir eine MySQL-Library von Oracle zu installieren. Das wäre nämlich für einen Upgrade auf DBD::mysql 5.002 notwendig.
        
        Alles gut, also.

View all threads created 2023-11-12 10:22.