Thread Unicode Zeichen in einer Regexp matchen?
(3 answers)
Opened by johann_p at 2008-04-12 11:39
Was ist die korrekte und portable Methode, Unicode Zeichen in einer Regexp zu matchen?
Zum Beispiel: der long-dash hat in UTF-8 den 3-Byte code 0xE2 0x80 0x95. Ich habe das mal mit /\xe2\x80\x95/ gemacht, aber funktioniert das auch sicher auf allen Plattformen, unabhängig von Endedness usw? Wirkt sich Endedness überhaupt auf Mehrbytesequenzen aus? Was ist in einer perl regexp der Unterschied zwischen /\xe2\x80/ und /\x{e280}? Kann man Unicode Zeichen auch mit /\N{name}/ matchen und wie findet man raus was "name" für den Long Dash ist und welche "name"s überhaupt unterstützt werden? |