mein script verweigert ignore_case in utf-8 pattern matching (gelöst) (Perl/CGI)

[thread]18353[/thread]

mein script verweigert ignore_case in utf-8 pattern matching [gelöst]

Tags: perl5 utf-8 Umlaute ignore case Ähnliche Threads

Leser: 19

Articles: hide open all | hide show old branches

+24 replies
technix

2013-06-02 16:19

User since
2013-06-02
10 Artikel
BenutzerIn

Tach allerseits,

nach Durchlesen vieler Beiträge im Forum (nichts Hilfreiches gefunden) ... ich hab ein selbstkomponiertes Perlscript das im Rahmen eines Webshops Abfragen aus einer Textdatei ermöglicht, alles funktioniert grundsätzlich bestens.

Nun habe ich die zu durchsuchende Datei auf UTF-8 umgestellt, das Skript in UTF-8 codiert und in den <form> Tags des HTML codes 'accept-UTF-8' ergänzt.

Mein Problem liegt bei den Umlauten, bitte nicht Grinsen und Lachen...
print .. if ($durchsuchen =~ m/$suchtext/i) sollte ein ignore case bewirken

Wenn ich mir die übergebenen Abfragen vom Antwortskript im Browser anzeigen lasse, stimmen die übergebenen Umlaute.

ABER beim Pattern Matching sollte das Skript ja Treffer ergeben, egal ob ich in der Suche Umlaut-o nun groß (Ö) oder klein (ö) schreibe, und das ist nicht der Fall. Im Detail scheint also das m/.../i nicht zu funktionieren, kann mir jemand helfen?

Manfred
perl 5.8.8 production script auf einer Unix-Kiste, gescripted auf Mac OSX 10.6 alles in utf-8
Last edited: 2013-06-02 16:22:44 +0200 (CEST)
- +4 replies
- pq
  
  2013-06-02 16:29
  User since
  2003-08-04
  12209 Artikel
  Admin1
  falls du es noch nicht gelesen hast, hier ein netter artikel zu charsets:
  http://perlgeek.de/de/artikel/charsets-unicode
  
  ich vermute, dass mindestens einer der beiden strings (der zu vergleichende oder die regex) nicht dekodiert ist.
  
  hier eine demonstration:
  
  Code: (dl )
  
  1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
  
  $ perl -wE' my $s = "Ö"; my $regex = "ö"; say 1 if $s =~ m/$regex/i' $ perl -wE' use utf8; # strings direkt im skript werden automatisch dekodiert my $s = "Ö"; my $regex = "ö"; say 1 if $s =~ m/$regex/i' 1 $ perl -wE' use Encode; # manuelles dekodieren von variablen my $s = decode_utf8 "Ö"; my $regex = decode_utf8 "ö"; say 1 if $s =~ m/$regex/i' 1
  
  wenn der string nicht dekodiert ist, ist das für perl nur eine folge von bytes, und das aus 2 bytes bestehende ö wird nicht als einzelner character erkannt.
  
  zum debugging:
  
  Code (perl): (dl )
  
  1 2 3
  
  use Devel::Peek; Dump $durchsuchen; Dummp $suchtext;
  
  dann solltest du genau sehen, was dekodiert ist und was nicht
  Last edited: 2013-06-02 16:31:28 +0200 (CEST)
  Always code as if the guy who ends up maintaining your code will be a violent psychopath who knows where you live. -- Damian Conway in "Perl Best Practices"
  lesen: Wie frage ich & perlintro brian's Leitfaden für jedes Perl-Problem
  - +3 replies
  - technix
    
    2013-06-02 18:51
    
    User since
    2013-06-02
    10 Artikel
    BenutzerIn
    
    @Tina: das dürfte wohl so sein, Dein Hinweis ist für mich jedenfalls hilfreich, nur komme ich auch mit 'use Encode qw(encode decode);' etc. nicht weiter (der Einbau Deines Vorschlags änderte leider nichts).
    Ich lese die Daten in einem utf-8 codierten cgi-script aus einer utf-8 codierten Datei ein, übergebe aus einem Webformular einen utf-8 Suchstring, der dann in einem Durchlauf mit m/../i Treffer finden soll.
    Ich muß einen Weg der Decodierung finden, der mir die Daten vor und nach dem pattern matching sichtbar macht.
    
    @GwenDragon: Ich verwende keine locale und kaum module, die Lösung wird eher in Richtung von Tina'S Hinweis liegen.
    
    Jetzt werde ich mich erstmal aufhängen und dann erschießen.
    Vielleicht fällt mir später wieder was ein.
    Last edited: 2013-06-02 18:57:12 +0200 (CEST)
    - GwenDragon
      
      2013-06-02 19:27
      
      User since
      2005-01-17
      14830 Artikel
      Admin1
      
      2013-06-02T16:51:55 technix
      @GwenDragon: Ich verwende keine locale und kaum module
      
      Ach, du benutzt sehr wohl Locales! Perl benutzt die des OS automatisch!
      
      Schau was passieren kann:
      
      Code: (dl )
      
      1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
      
      root@gwendragon ~ # locale; perl -E "say (('Testä' =~ /ä/i) ? 'Match' : 'NOMatch')" LANG=en_US.UTF-8 LANGUAGE= LC_CTYPE="en_US.UTF-8" LC_NUMERIC="en_US.UTF-8" LC_TIME="en_US.UTF-8" LC_COLLATE="en_US.UTF-8" LC_MONETARY="en_US.UTF-8" LC_MESSAGES="en_US.UTF-8" LC_PAPER="en_US.UTF-8" LC_NAME="en_US.UTF-8" LC_ADDRESS="en_US.UTF-8" LC_TELEPHONE="en_US.UTF-8" LC_MEASUREMENT="en_US.UTF-8" LC_IDENTIFICATION="en_US.UTF-8" LC_ALL= Match root@gwendragon ~ # perl -E "say (('Testä' =~ /Ä/i) ? 'Match' : 'NOMatch')" NOMatch
      
      kann auch für Perl 5.8.x gelten
      Dort muss nur das als Einzeiler:
      
      Code (perl): (dl )
      
      1 2
      
      perl -e "print (('Testä' =~ /Ä/i) ? 'Match' : 'NOMatch')" perl -e "print (('Testä' =~ /ä/i) ? 'Match' : 'NOMatch')"
      
      Und nu?
      keine Infos angeben. Weiterraten? ;)
      Last edited: 2013-06-02 19:32:45 +0200 (CEST)
      die Drachin Gwen
      
      Meine Perl-Artikel · perldev – verschiedene Perl-Versionen unter Windows starten
    - pq
      
      2013-06-02 20:14
      
      User since
      2003-08-04
      12209 Artikel
      Admin1
      
      wie gesagt, benutzt doch mal Devel::Peek, um erstmal klarheit darüber zu schaffen, was in den strings ist.
      zeig den output, dann sehen wir weiter. vorher ist es nur rumraterei.
      
      ich hab dir in eine kleinstmöglichen skript gezeigt, wie es geht und wie es nicht geht. daher wäre es sinnvoll, wenn du dann den relevanten teil des codes (einlesen der parameter und der datei) hier zeigst.
      
      und wenn dann sprich mich doch mit "pq" an, für die, die meinen namen nicht kennen ;-)
      Last edited: 2013-06-02 20:17:29 +0200 (CEST)
      Always code as if the guy who ends up maintaining your code will be a violent psychopath who knows where you live. -- Damian Conway in "Perl Best Practices"
      lesen: Wie frage ich & perlintro brian's Leitfaden für jedes Perl-Problem
- GwenDragon
  
  2013-06-02 18:11
  
  User since
  2005-01-17
  14830 Artikel
  Admin1
  
  Regexe können sich auch danach richten, welche Locales im System aktiv sind.
  die Drachin Gwen
  
  Meine Perl-Artikel · perldev – verschiedene Perl-Versionen unter Windows starten
- +18 replies
- Linuxer
  
  2013-06-02 22:05
  User since
  2006-01-27
  3891 Artikel
  HausmeisterIn
  Und lässt Du die Textdatei auch als utf-8 kodiert einlesen?
  
  Leider verrätst Du kaum etwas über den verwendeten Code, so dass man im Nebel stochern muss.
  
  Ein als utf8 kodiertes Skript liest eine als utf8 kodierte Datei und prüft auf einen Match mit Umlauten:
  
  Code (perl): (dl )
  
  1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26
  
  #! /usr/bin/perl use strict; use warnings; use Data::Dumper; use utf8; my $file = shift || die "no input file given."; my $re_suche = qr{[äöü]}i; # ohne ":encoding(...)" gibt es keinen Match open my $fh, '<:encoding(UTF-8)', $file or die "open '$file' failed: $!\n"; while ( my $l = <$fh> ) { if ( $l =~ $re_suche ) { print " Match\n"; } else { print "NoMatch\n"; } } close $fh;
  
  Die Datendatei (utf8 kodiert):
  
  Code: (dl )
  
  Hallo Wörld.
  
  Und das funktioniert bei mir. Beachte die Zeilen 11+12 im Programmcode...
  meine Beiträge: I.d.R. alle Angaben ohne Gewähr und auf Linux abgestimmt!
  Die Sprache heisst Perl, nicht PERL. - Bitte Crossposts als solche kenntlich machen!
  - +4 replies
  - technix
    
    2013-06-03 17:53
    User since
    2013-06-02
    10 Artikel
    BenutzerIn
    
    wieder stundenlang Vieles ausprobiert, kein Erfolg.
    
    Code (perl): (dl )
    
    1 2 3 4 5 6 7 8 9 10
    
    use Encode qw(encode decode); $enc = 'utf-8'; ... $in{'bez'} = decode($enc, $in{'bez'}); if ($feld[6] =~ m/$in{'bez'}/i) { ....... # # $feld[6] ist ein Teil der zeilenweise ausgelesenen Datei # in $in{'bez'} steht per cgi übergeben, was ich finden will # alles funzt problemlos, ö und Ö werden gefunden, nur der # modifier 'i' m/$in{'bez'}/i weigert sich 'case ignoring' # zu arbeiten.
    
    @Linuxer:
    Du meinst, die Datei müßte zum Lesen mit .... <:encoding(UTF-8)', $file eingelesen werden. ich mache dies also mit
    
    Code (perl): (dl )
    
    open(MYTEXT, "<:encoding(UTF-8), $infile") || die "Datei verstorben"
    
    sobald ich diese eine Zeile wie oben schreibe, stürzt das Script schon beim Start ab, use CGI::Carp qw( fatalsToBrowser ); meldet gar nichts. Die Syntax zum Daten-Einlesen ist aber doch richtig oder?
    - +2 replies
    - jan
      
      2013-06-03 17:55
      
      User since
      2003-08-04
      2536 Artikel
      ModeratorIn
      
      2013-06-03T15:53:42 technix
      
      Code (perl): (dl )
      
      open(MYTEXT, "<:encoding(UTF-8), $infile") || die "Datei verstorben"
      
      das sollte
      
      Code (perl): (dl )
      
      open(MYTEXT, "<:encoding(UTF-8)", $infile) || die "Datei verstorben";
      
      sein
      - technix
        
        2013-06-03 18:44
        
        User since
        2013-06-02
        10 Artikel
        BenutzerIn
        
        Danke !
        Ich bin schon so viereckig in der Birne, daß mir das nicht und nicht aufgefallen ist.
    - Linuxer
      
      2013-06-03 18:14
      
      User since
      2006-01-27
      3891 Artikel
      HausmeisterIn
      
      Ich kann nur sagen und zeigen, was ich probiert habe und was ich als Ergebnis bekommen habe.
      Zu Deinen Ergebnissen vermag ich mangels Überblick/Informationen nichts zu sagen.
      
      Hast Du denn mein Beispiel bei Dir ausprobiert? Funktioniert es bei Dir?
      
      Auf die fehlerhafte Syntax bei Deinem gezeigten open-Code hat ja bereits Jan hingewiesen.
      
      Ansonsten kann man zum open ganz allgemein noch anmerken, dass es keinen lexikalischen Dateihandle verwendet und bei der Fehlermeldung könnte man noch $! mit ausgegeben, um Hinweise zu erhalten, warum die Datei nicht geöffnet werden konnte. Und ich würde den Dateinamen/die Datei-Variable mit in die Fehlermeldung schreiben.
      
      WasIsteinLexikalischerFileHandle
      
      Beispiel:
      
      Code (perl): (dl )
      
      1 2 3 4
      
      my $infile = '/tmp/bla.txt'; open my $infh, '<', $infile or die "open(ro,$infile) failed: $!"; # ... close $infh;
      
      meine Beiträge: I.d.R. alle Angaben ohne Gewähr und auf Linux abgestimmt!
      Die Sprache heisst Perl, nicht PERL. - Bitte Crossposts als solche kenntlich machen!
  - +13 replies
  - technix
    
    2013-06-03 19:00
    
    User since
    2013-06-02
    10 Artikel
    BenutzerIn
    
    Ich hab probiert, die Textdatei jetzt UTF-8 codiert einzulesen, das ging problemlos, aber bewirkt, daß die Daten im browser nicht mehr richtig (sondern mit den schwarzen Vierecken) ausgegeben werden.
    Die Suchfunktionen liefern dann auch keine brauchbaren Ergebnisse mehr, also lese ich die utf-8 Textdatei mit dem utf-8 codierten perlscript wieder ohne ...<:encoding(UTF-8)... im open Befehl ein und alles paßt wieder, mit Ausnahme des ignore case modifiers beim pattern matching.
    
    Es sind 812 Zeilen Code ... ich arbeite daran, ein Beispiel online zu stellen, mit dem es sich dann auch experimentieren läßt.
    
    Ich probiere alles aus, was ihr mit vorschlagt, danke jedem und jeder der da schon geholfen hat!
    
    nur das von pq empfohlene Devel::Peek mag mich nicht, das geht wohl im Perl-Editor 'daheim' aber online liefert es keine Ergebnisse, das mag auch an der browsr Ausgabe liegen. Auch hier experimentere ich noch.
    
    Eure Script Beispiele laufen bei mir problemlos und helfen auch, diese Unicode Sache etwas besser zu verstehen. Ich versuche da auch Grundlagen nachzuholen, muß das Zeug aber bald wieder so hinkriegen, daß die Groß-/Kleinschreibung in der Suche ignoriert wird. "Er" findet ja kleine 'ö' und große 'Ö' aber ignore-case geht nicht und wäre ganz wichtig.
    
    Noch eine Kleinigkeit am Rande; wenn ich am Anfang des Skripts das Pragma use utf8; setze, dann verschwinden die Umlaute aus meiner Suchvariablen (ich lasse mir die vor dem Start der Suche noch anzeigen). Das habe ich also auch sofort wieder entfernt.
    
    Ich melde mich wieder, wenn ein Beispiel verfügbar ist.
    Herzlichen Dank inzwischen!
    Last edited: 2013-06-03 19:09:51 +0200 (CEST)
    - +2 replies
    - GwenDragon
      
      2013-06-03 19:05
      
      User since
      2005-01-17
      14830 Artikel
      Admin1
      
      Quote
      das ging problemlos, aber bewirkt, daß die Daten im browser nicht mehr richtig (sondern mit den schwarzen Vierecken) ausgegeben werden.
      Stellt sich die Frage: Liefert der Server UTF-8 als charset aus, was steht als charset im HTML-Head?
      die Drachin Gwen
      
      Meine Perl-Artikel · perldev – verschiedene Perl-Versionen unter Windows starten
      - technix
        
        2013-06-03 19:20
        
        User since
        2013-06-02
        10 Artikel
        BenutzerIn
        
        Der Apache liefert:
        
        HTTP/1.1 200 OK Date: Mon, 03 Jun 2013 17:11:11 GMT Server: Apache Cache-Control: no-cache Pragma: no-cache Connection: close Transfer-Encoding: chunked Content-Type: text/html; charset=utf-8
    - pq
      
      2013-06-03 19:11
      
      User since
      2003-08-04
      12209 Artikel
      Admin1
      
      2013-06-03T17:00:43 technix
      Ich hab probiert, die Textdatei jetzt UTF-8 codiert einzulesen, das ging problemlos, aber bewirkt, daß die Daten im browser nicht mehr richtig (sondern mit den schwarzen Vierecken) ausgegeben werden.
      
      für die ausgabe musst du den text wieder kodieren, z.b. mit encode_utf8
      
      Quote
      nur das von pq empfohlene Devel::Peek mag mich nicht, das geht wohl im Perl-Editor 'daheim' aber online liefert es keine Ergebnisse, das mag auch an der browsr Ausgabe liegen. Auch hier experimentere ich noch.
      
      Devel::Peek::Dump gibt auf STDERR aus, das landet dann im errorlog. sollte man wenn möglich beim entwickeln immer mitlesen.
      Always code as if the guy who ends up maintaining your code will be a violent psychopath who knows where you live. -- Damian Conway in "Perl Best Practices"
      lesen: Wie frage ich & perlintro brian's Leitfaden für jedes Perl-Problem
    - +2 replies
    - Linuxer
      
      2013-06-03 19:20
      
      User since
      2006-01-27
      3891 Artikel
      HausmeisterIn
      
      2013-06-03T17:00:43 technix
      wenn ich am Anfang des Skripts das Pragma use utf8; setze, dann verschwinden die Umlaute aus meiner Suchvariablen (ich lasse mir die vor dem Start der Suche noch anzeigen). Das habe ich also auch sofort wieder entfernt.
      
      Du hast ein UTF-8 kodiertes Skript und wirfst use utf8; wieder raus?
      Ich bin irritiert und drück Dir die Daumen. Klingt alles sehr verwirrend...
      
      http://perldoc.perl.org/utf8.html
      
      Wenn ich das richtig lese & deute: Solange man die richtige Zeichenmenge verwendet, kann das sogar gutgehen ;)
      Last edited: 2013-06-03 19:21:35 +0200 (CEST)
      meine Beiträge: I.d.R. alle Angaben ohne Gewähr und auf Linux abgestimmt!
      Die Sprache heisst Perl, nicht PERL. - Bitte Crossposts als solche kenntlich machen!
      - technix
        
        2013-06-03 19:38
        
        User since
        2013-06-02
        10 Artikel
        BenutzerIn
        
        ich verwende ja trotz Dateioperationen und browser ausschließlich utf-8, insofern scheint das 'use utf-8' nicht nötig zu sein.
        Aber eins nach dem anderen ... ich erzeuge jetzt eine abgespeckte und unverschachtelte Variante in der ich mein Problem besser demonstrieren kann. Danke inzwischen!
    - +7 replies
    - Gast wer
      
      2013-06-03 19:50
      
      Erzwinge UTF-8 in der Ausgabe:
      
      Code (perl): (dl )
      
      binmode STDOUT, ':encoding(UTF-8)';
      
      Merke dir: Wenn du beim lesen dekodierst musst du beim schreiben kodieren.
      
      Du wandelst: UTF-8 -> "Perl utf8" -> UTF-8
      Last edited: 2013-06-03 19:52:17 +0200 (CEST)
      - +6 replies
      - technix
        
        2013-06-03 21:38
        
        User since
        2013-06-02
        10 Artikel
        BenutzerIn
        
        So, hier ein völlig versimpeltes Beispiel:
        http://www.codebase.at/bb.pl
        Bitte ausprobieren, man versteht's gleich.
        Script ist utf8 codiert, Daten sind utf-8 auch die Eingabe verlangt utf-8
        
        Code (perl): (dl )
        
        1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48
        
        #!/usr/bin/perl -w use CGI::Carp qw( fatalsToBrowser ); use Encode qw(encode decode); $enc = 'utf-8'; $infile = "bb.txt"; $in{'bez'}="Rad"; &param_in; print qq*Content-type: text/html; charset=utf-8\n <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> <form method="GET" action="bb.pl" name="ArtSuch" accept-charset="UTF-8"> <input type="hidden" name="dummyChar" value="♥" />  Bitte nach deutschen Umlauten (groß/kleingeschrieben) suchen<br> Suchtext <input name="bez" size="10" value="" maxlength="3" type="text"></form>*; print "gesucht wird: $in{'bez'}<br><br>Ergebnis:<br>"; if (-T $infile) { open(ZEUG, "<$infile") || die "keine Textdatei\n";} while(<ZEUG>) { $testline=$_; if ($testline =~ m/$in{'bez'}/i) { print "$testline <-- ich hab ein "$in{'bez'}" gefunden!<br>"; } else { print "$testline<br>"; } } print qq*<br>Eine Suche nach F findet alle 3 F (groß und klein)<br> leider ist das bei den Umlauten nicht so"*; exit(0); #---------------------------------------------- sub param_in { if ($ENV{'REQUEST_METHOD'} eq "GET") { $buffer = $ENV{'QUERY_STRING'}; } else { read(STDIN, $buffer, $ENV{'CONTENT_LENGTH'}); } @nvpairs = split(/&/,$buffer); foreach $pair (@nvpairs) { ($name, $value) = split(/=/, $pair); $value =~ tr/+/ /; $value =~ s/%([a-fA-F0-9][a-fA-F0-9])/pack("C", hex($1))/eg; $in{$name} = $value; } }
        
        Ich entwickle mit perl 5.10.0, Produktion ist per 5.8.8, coding passiert meist remote auf einem CentOS 5.9 & 6.3 Linux.
        
        Alle Eure Vorschläge werde ich gleich ausprobieren.
        Und jetzt warte ich auf Eure Kopfnüsse :-)
        
        +5 replies
        
        pq
        
        2013-06-03 23:56
        
        User since
        2003-08-04
        12209 Artikel
        Admin1
        
        ok, an dieser stelle darf ich dir ein tutorial wie Modern Perl empfehlen. das oder andere findest du auf http://perl-tutorial.org/
        
        strict und warnings sollten drin sein (-w ist veraltet), lexikalische filehandles, wie schon erwähnt, und CGI.pm solltest du auch verwenden. das einlesen der parameter von hand macht man schon lange nicht mehr.
        wenn du utf8 direkt im skript hast, dann musst du use utf8 auch drinhaben.
        längere strings sollte man mit here-doc ausgeben (siehe zeile 17).
        
        ich war so frei, das gesamte script mal umzuschreiben.
        das funktioniert bei mir mit parameter "bez=HÄUSER" und in der bb.txt steht "häuser".
        
        Code (perl): (dl )
        
        1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44
        
        #!/usr/bin/perl use strict; use warnings; use utf8; # script beinhaltet direkt utf8 use CGI::Carp qw( fatalsToBrowser ); use CGI; use Encode qw(encode decode); my $enc = 'utf-8'; my $cgi = CGI->new; my $infile = "bb.txt"; my $bez = decode($enc, $cgi->param('bez')) || "Red"; # zur Ausgabe wieder kodieren binmode STDOUT, ':encoding(UTF-8)'; print <<"EOM"; Content-type: text/html; charset=utf-8 <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN"> <form method="GET" action="bb.pl" name="ArtSuch" accept-charset="UTF-8"> <input type="hidden" name="dummyChar" value="♥" />  Bitte nach deutschen Umlauten (groß/kleingeschrieben) suchen<br> Suchtext <input name="bez" size="10" value="" maxlength="3" type="text"></form> EOM print "gesucht wird: $bez<br><br>Ergebnis:<br>"; -T $infile or die "$infile not an ASCII file"; open my $fh, "<:encoding(UTF-8)", $infile or die "keine Textdatei: $!"; while (my $testline = <$fh>) { if ($testline =~ m/$bez/i) { print "$testline <-- ich hab ein "$bez" gefunden!<br>"; } else { print "$testline<br>"; } } print qq*<br>Eine Suche nach F findet alle 3 F (groß und klein)<br> leider ist das bei den Umlauten nicht so"*; exit(0);
        
        edit: und noch ein kommentar zur regex: wenn keine regex-sonderzeichen benötigt werden, empfiehlt es sich, das so zu schreiben: m/\Q$bez\E/i
        damit deaktivierst du eventuell eingegebene regex-sonderzeichen, die unter umständen auch dazu führen können, dass ein matching sehr lange dauert. wenn also jeder da was ins formular eintragen kann, lieber auf nummer sicher gehen.
        Last edited: 2013-06-04 00:32:17 +0200 (CEST)
        Always code as if the guy who ends up maintaining your code will be a violent psychopath who knows where you live. -- Damian Conway in "Perl Best Practices"
        lesen: Wie frage ich & perlintro brian's Leitfaden für jedes Perl-Problem
        
        +4 replies
        
        technix
        
        2013-06-04 12:57
        
        User since
        2013-06-02
        10 Artikel
        BenutzerIn
        
        Herzlichen Dank an pq und an Euch alle. Fürs Erste arbeitet das Suchmodul meines Webshops nun wie es soll. Natürlich hätte es einen gewaltigen Modernisierungsbedarf :-).
        Tja, und danke für die Hinweise auf neuen Lesestoff. Man kann nie genug perl-Literatur brauchen...
        
        Ich hatte das vor ca. 10 Jahren geschrieben und damals zählten für mich so Werte wie Sparsamkeit beim Speicherbedarf und möglichst große Autonomie des Scripts, die heute niemanden mehr kratzen.
        
        m/\Q$bez\E/i hatte ich durch Substitution aller nicht erlaubten Zeichen realisiert, \Q...\E ist/war mir neu.
        
        Im Endeffekt habe ich Folgendes gebraucht und bei Euch letztendlich deutlich besser erklärt bekommen, als in anderen perl-Quellen.
        
        Code (perl): (dl )
        
        1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
        
        use utf-8; # zwingend erforderlich, in utf-8 zu scripten allein # ist zuwenig. use Encode qw(encode decode); $enc = 'utf-8'; $in{'suchmich'} = decode($enc, $in{'suchmich'}); # # decodieren aller relevanten von 'außen' übergebenen # Variablen, da perl intern utf-8 leider nicht versteht open my $fh, "<:encoding(UTF-8)", $infile # # einlesen externer Textdaten als utf-8, auch wenn diese # schon utf-8 sind # und vor der ersten Ausgabe in Dateien oder als HTML binmode STDOUT, ':encoding(UTF-8)';
        
        Ich hoffe, ich werd hier auch mal eine Gelegenheit finden, die eine oder andere Lösung einzuwerfen.
        Last edited: 2013-06-04 13:00:03 +0200 (CEST)
        
        +3 replies
        
        pq
        
        2013-06-04 13:29
        
        User since
        2003-08-04
        12209 Artikel
        Admin1
        
        deine kommentare deuten darauf hin, dass du das mit dem utf8 noch nicht gänzlich verstanden hast. den verlinkten artikel zu charsets hast du gelesen?
        
        2013-06-04T10:57:45 technix
        
        Code (perl): (dl )
        
        1 2 3
        
        use utf-8; # zwingend erforderlich, in utf-8 zu scripten allein # ist zuwenig.
        
        das modul ("pragma") heisst utf8, nicht utf-8.
        und es ist nicht zwingend erforderlich.
        es ist, wie schon erwähnt wurde, nur dann erforderlich, wenn du utf-8 direkt im skript hast.
        bitte frag nach, wenn das unklar ist. hast du ein skript, in dem keinerlei umlaute oder sonstiges vorkommen und bei dem die daten mit umlauten nur aus dateien oder parametern kommen, brauchst du kein "use utf8"!
        du machst alles mit Encode.
        
        Quote
        
        Code (perl): (dl )
        
        1 2 3 4 5
        
        use Encode qw(encode decode); $enc = 'utf-8'; $in{'suchmich'} = decode($enc, $in{'suchmich'}); # # decodieren aller relevanten von 'außen' übergebenen # Variablen, da perl intern utf-8 leider nicht versteht
        
        es ist nicht so, dass "perl intern utf-8 leider nicht versteht".
        wie schon erwähnt, von aussem kommen bytes. ein umlaut ist dann z.b. in 2 aufeinanderfolgenden bytes kodiert. die sind dann einfach zusammenhanglos. du musst perl das ganze erst dekodieren lassen, damit die 2 bytes als ein zusammenhängener character verstanden werden. du musst perl also zuerst mitteilen: hier kommt utf-8.
        für die ausgabe gehst du dann wieder den umgekehrten weg.
        
        Quote
        
        Code (perl): (dl )
        
        1 2 3 4
        
        open my $fh, "<:encoding(UTF-8)", $infile # # einlesen externer Textdaten als utf-8, auch wenn diese # schon utf-8 sind
        
        auch hier: die daten werden nicht als utf-8 eingelesen, *obwohl* sie schon utf-8 sind.
        die datei besteht einfach nur aus einzelnen bytes. keiner weiss, dass die bytes zusammen utf-8 ergeben sollen, das sagst du perl als programmierer.
        dein kommentar klingt, als müsstest du was doppelt machen.
        Always code as if the guy who ends up maintaining your code will be a violent psychopath who knows where you live. -- Damian Conway in "Perl Best Practices"
        lesen: Wie frage ich & perlintro brian's Leitfaden für jedes Perl-Problem
        
        +2 replies
        
        technix
        
        2013-06-04 22:30
        
        User since
        2013-06-02
        10 Artikel
        BenutzerIn
        
        Tatsächlich gibt es da unklare Punkte, die nicht so leicht durch Lesen von Tutorials zu behirnen sind, sondern sich erst durch reale Nutzung des Wissens einprägen.
        
        Perl braucht also die Information: 'Behandle das, was nun kommt, als utf-8' und 'schick die Daten (ab hier) utf-8 codiert in die Außenwelt'. Na, aus diesem Thread ließe sich schon ein Tutorial bauen.
        
        Es bleiben halt Dinge offen wie
        - woher kommt use Encode qw(encode decode);, ist das Teil eines CPAN Moduls, und wo ist dann die Form $bez = decode($enc, $bez) beschrieben
        - wie komme ich ausgerechnet auf binmode STDOUT und woher kommt die Fortsetzung ':encoding(UTF-8)'
        - was zur Hölle ist der Unterschied zwischen byte-String und text-string?
        
        Es hilft ja nicht, such- und lernwillig zu sein, wenn man keinen Tau hat wonach man nun suchen soll.
        
        Ich werde jedenfalls mit perl weiterbohren :-)
        
        pq
        
        2013-06-04 22:56
        
        User since
        2003-08-04
        12209 Artikel
        Admin1
        
        Encode ist ein perl-modul, das ab 5.8 mitgeliefert wird.
        die doku kannst du auch lokal mit perldoc Encode aufrufen.
        
        hier mal zur veranschaulichung von bytes und chars (kommentare von mir):
        
        Code: (dl )
        
        1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33
        
        perl -wE' use Encode; use Devel::Peek; my $bytes = "ä ö ü"; my $chars = decode_utf8("ä ö ü"); my $latin1 = encode(latin1 => $chars); Dump $bytes; Dump $chars; Dump $latin1; ' # $bytes SV = PV(0x850b78) at 0x86fc20 REFCNT = 1 FLAGS = (PADMY,POK,pPOK) PV = 0x86a4e0 "\303\244 \303\266 \303\274"\0 CUR = 8 LEN = 16 # $chars SV = PV(0x851228) at 0x86fc68 REFCNT = 1 FLAGS = (PADMY,POK,pPOK,UTF8) PV = 0x8a9d00 "\303\244 \303\266 \303\274"\0 [UTF8 "\x{e4} \x{f6} \x{fc}"] CUR = 8 LEN = 16 # $latin1 SV = PV(0x8514e8) at 0x86fc08 REFCNT = 1 FLAGS = (PADMY,POK,pPOK) PV = 0x94e9b0 "\344 \366 \374"\0 CUR = 5 LEN = 8
        
        ich arbeite in einem utf8-terminal.
        output nummer 1:
        in $bytes steht \303\244 für das ä - 2 bytes, die als utf8 dekodiert einen zusammenhängenden character bilden würden.
        output nummer 2:
        das siehst du in $chars. Devel::Peek zeigt dir zur veranschaulichung [UTF8 "\x{e4} \x{f6} \x{fc}"].
        output nummer 3:
        in latin1 besteht ein ä aus einem byte \344
        
        binmode STDOUT, ... ist nur eine alternative zu $output = encode_utf8($output) und praktisch, wenn man mehrere sachen ausgeben will und nicht den gesamten output in einer variable hat.
        
        steht aber auch in http://perlgeek.de/de/artikel/charsets-unicode
        Always code as if the guy who ends up maintaining your code will be a violent psychopath who knows where you live. -- Damian Conway in "Perl Best Practices"
        lesen: Wie frage ich & perlintro brian's Leitfaden für jedes Perl-Problem

View all threads created 2013-06-02 16:19.