Regex Vergleich und "use locale" (Allgemeines zu Perl)

[thread]19905[/thread]

Regex Vergleich und "use locale"

Tags: perl5 Ähnliche Threads

Leser: 13

Articles: hide open all | hide show old branches

+5 replies
Gast Raphael

2015-11-26 14:45
Hallo,
ich arbeite an einem kleinen Projekt, bei dem es wichtig ist, Umlaute über reguläre Ausdrücke zu erkennen. Prinzipiell ist das ja kein Problem, aber ich möchte zusätzlich in dem Programm "use locale;" verwenden, da ich mit Funktionen wie sort Umlaute korrekt sortieren möchte. Schaut euch mal folgendes Minimalbeispiel an:
Code: (dl )

1 2 3 4 5 6 7 8 9 10 11

use utf8; use locale; my $s="ü"; #Bei diesem Vergleich scheint "use locale" etwas kaputt zu machen. if ($s =~ /\w/){ print "match\n"; } else{ print "kein match\n"; }
Dieses Programm liefert bei mir die Ausgabe "kein match". Ohne "use locale" funktioniert der match dagegen wie gewünscht. Ein Aufruf von locale in der Konsole liefert:
Code: (dl )

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

>locale LANG=de_DE.UTF-8 LANGUAGE=de_DE LC_CTYPE="de_DE.UTF-8" LC_NUMERIC="de_DE.UTF-8" LC_TIME="de_DE.UTF-8" LC_COLLATE="de_DE.UTF-8" LC_MONETARY="de_DE.UTF-8" LC_MESSAGES="de_DE.UTF-8" LC_PAPER="de_DE.UTF-8" LC_NAME="de_DE.UTF-8" LC_ADDRESS="de_DE.UTF-8" LC_TELEPHONE="de_DE.UTF-8" LC_MEASUREMENT="de_DE.UTF-8" LC_IDENTIFICATION="de_DE.UTF-8" LC_ALL=
Weiß jemand:
1. warum mit "use locale" den Vergleich nicht funktioniert und
2. wie ich den Vergleich trotz "use locale" zum Laufen bringe?

Viele Grüße
Last edited: 2015-11-26 15:56:13 +0100 (CET)
- +2 replies
- Raubtier
  
  2015-11-26 16:18
  
  User since
  2012-05-04
  1081 Artikel
  BenutzerIn
  
  Siehe perldoc locale:
  
  Quote
  Starting in Perl 5.16, a hybrid mode for this pragma is available,
  
  use locale ':not_characters';
  
  which enables only the portions of locales that don't affect the character set (that is, all except LC_COLLATE and LC_CTYPE). This is useful when mixing Unicode and locales, including UTF-8 locales.
  - Gast Raphael
    
    2015-11-26 16:59
    
    Danke für die Antwort, mit use locale ':not_characters'; funktioniert es.
    Leider verstehe ich nicht, warum...
    Ich habe selbst schon einen Blick in die perldoc geworfen und leider nichts verstanden. Könntest du etwas genauer erklären, was da vorgeht?
    Warum funktioniert der Regex Vergleich nicht, wenn ich die Teile der locale, die sich auf das characterset beziehen mit benutze? Meine Locale ist doch eben auf UTF-8 gestellt.
    Last edited: 2015-11-26 17:11:41 +0100 (CET)
- bianca
  
  2015-11-27 11:58
  User since
  2009-09-13
  7016 Artikel
  BenutzerIn
  Guest Raphael
  da ich mit Funktionen wie sort Umlaute korrekt sortieren möchte
  
  Dafür benutze ich das hier:
  
  Code (perl): (dl )
  
  1 2 3 4
  
  use Unicode::Collate; my $alphasorter_modul = Unicode::Collate->new(); my $alphasorter_regex = qr{[^0-9 a-z!"§$%&/()=?\{\[\]\}\]><|_\-+*,.:;#'~\^]}ix; my $alphasorter = sub { $_[0] =~ $alphasorter_regex || $_[1] =~ $alphasorter_regex ? $alphasorter_modul->cmp($_[0],$_[1]) : lc $_[0] cmp lc $_[1] };
  
  Das hatten wir hier: Unicode::Collate -> sehr langsam?
  10 print "Hallo"
  20 goto 10
- betterworld
  
  2015-11-28 01:01
  User since
  2003-08-21
  2614 Artikel
  ModeratorIn
  Du brauchst keine Locales und kein "use locale". Früher, als alles in 8-Bit-Zeichen codiert war, brauchte man Locale, um das Charset festzulegen, welches dann sagt, welche Zeichen Umlaute sind.
  
  Aber wenn man Unicode-Strings hat (sie müssen in Perl das utf8-Flag gesetzt haben, das ist leider ein bisschen lowlevel), dann weiß Perl von sich aus schon, welche Zeichen Umlaute sind, weil das in Unicode festgelegt ist. Dein String müsste eigentlich das utf8-Bit gesetzt haben, weil er eine literale Konstante aus einem Script ist, welches "use utf8" benutzt. Und bei mir funktioniert das auch so:
  
  Code (perl): (dl )
  
  1 2 3 4
  
  use strict; use utf8; my $s = 'ü'; print $s =~ /\w/; # Ausgabe: 1
  
  Wenn es bei dir nicht so funktioniert, solltest du mal prüfen, ob dein Script tatsächlich in UTF-8 kodiert ist. Eventuell funktioniert es auch in älteren Perl-Versionen nicht richtig.
  Last edited: 2015-11-28 01:03:30 +0100 (CET)
  Lieblingsmodule: IPC::System::Simple, Path::Class

View all threads created 2015-11-26 14:45.