whitespace-match funktioniert nicht (Allgemeines zu Perl)

[thread]18156[/thread]

whitespace-match funktioniert nicht

Tags: perl5 regex Ähnliche Threads

Leser: 25

Articles: hide open all | hide show old branches

+8 replies
Student87

2013-02-21 14:36
User since
2012-11-08
73 Artikel
BenutzerIn
Ich hab mir ne Datei aus meinem Langenscheidt Vokabeltrainer exportiert und über file -i rausgefunden, dass sie UTF-16le formatiert ist.

Jetzt hab ich sie mit '<:encoding(UTF-16le)' eingelesen und mit '>:encoding(UTF-8)' wieder ausgeben in die Datei "VokList".

In der Datei (s. Anhang) sieht man, dass der Langenscheidt Vokabeltrainer Nomen/Verb/Adj/Adv - Angaben mit exportiert hat. Die will ich wegfiltern.

Hiermit
Code (perl): (dl )

/[v n adj adv]\t/
matche ich zwar erfolgreich diese Angaben, ABER sobald ich den Ausdruck zu
Code (perl): (dl )

/\s[v n adj adv]\t/
ändere, matche ich nichts mehr.

Wieso, was ist das für ein Character in der Datei vor der Wortart-Angabe, wenn es kein whitespace ist? Dass es kein Tab ist, sieht man, habs auch trotzdem schon getestet ...
Anhänge

text/plain
530 lines
VokList
- +3 replies
- Linuxer
  
  2013-02-21 14:45
  
  User since
  2006-01-27
  3891 Artikel
  HausmeisterIn
  
  Seltsame Zeichenklasse, die Du da hast:
  /[v n adj adv]\t/
  
  v oder Leerzeichen oder n oder a oder d oder j oder Leerzeichen oder a oder d oder v; gefolgt von einem Tab.
  
  Willst Du evtl. ein Gruppe von Alternativen verwenden?
  
  /(?:v|n|adj|adv)\t/
  
  Laut meinem Vim steht davor kein einfaches Leerzeichen (\x20), sondern eine Sequenz \xc2\xa0 . Ein Non-Break-Space in UTF-8-Sprech: http://www.utf8-chartable.de/
  Darauf solltest Du auch matchen ...
  Ich bin mir nicht sicher, ob \s das wirklich beinhaltet. Da mögen die sich zu Wort melden, die mit Zeichenkodierungen erfahrener sind als ich.
  meine Beiträge: I.d.R. alle Angaben ohne Gewähr und auf Linux abgestimmt!
  Die Sprache heisst Perl, nicht PERL. - Bitte Crossposts als solche kenntlich machen!
  - +2 replies
  - Gast wer
    
    2013-02-21 15:24
    
    Das geht, wenn der String als UTF-8 markiert ist. Das geht entweder beim laden über ":encoding(UTF-8)" oder man benutzt Encode.
    - Linuxer
      
      2013-02-21 15:29
      
      User since
      2006-01-27
      3891 Artikel
      HausmeisterIn
      
      Hm, stimmt. Da war was. Danke.
      meine Beiträge: I.d.R. alle Angaben ohne Gewähr und auf Linux abgestimmt!
      Die Sprache heisst Perl, nicht PERL. - Bitte Crossposts als solche kenntlich machen!
- Muffi
  
  2013-02-21 14:46
  
  User since
  2012-07-18
  1465 Artikel
  BenutzerIn
  
  Ich glaube nicht, dass die Version tut was du willst.
  
  Du suchst nach v ODER " " ODER n ODER " " ODER a ODER d ODER j ODER ...
  
  willst du vielleicht (v|n|adj|adv) ?
  1 + 1 = 10
- +3 replies
- Student87
  
  2013-02-21 15:03
  
  User since
  2012-11-08
  73 Artikel
  BenutzerIn
  
  Upps ja danke für die Korrektur! Aber ...
  
  2013-02-21T13:45:30 Linuxer
  /(?:v|n|adj|adv)\t/
  
  wieso '?:' ?
  
  Wieso hab ich denn da son komisches Leerzeichen, da scheint ja meine UTF-16le nach UTF-8 Konvertierung nicht geklappt zu haben, oder ?
  - Muffi
    
    2013-02-21 15:08
    
    User since
    2012-07-18
    1465 Artikel
    BenutzerIn
    
    ?: Weil du dir das Gefundene nicht in $1 merken willst/brauchst. Klammern um irgendwas machen das ja.
    (?: ... ) sagt ich wills nur gruppieren, nicht merken.
    
    Wegen dem Leerzeichen: Mei, sie haben halt ein non-break-space genommen.
    Probier mal statt \s ein [[:space:]] ob das was bringt.
    1 + 1 = 10
  - Linuxer
    
    2013-02-21 15:09
    
    User since
    2006-01-27
    3891 Artikel
    HausmeisterIn
    
    (?:) ist nicht einfangende Klammerung. Damit landet das, was in der Klammer steht, nicht in $1 oder $2 ...
    meine Beiträge: I.d.R. alle Angaben ohne Gewähr und auf Linux abgestimmt!
    Die Sprache heisst Perl, nicht PERL. - Bitte Crossposts als solche kenntlich machen!

View all threads created 2013-02-21 14:36.