Ich hab mir ne Datei aus meinem Langenscheidt Vokabeltrainer exportiert und über file -i rausgefunden, dass sie UTF-16le formatiert ist.
Jetzt hab ich sie mit '<:encoding(UTF-16le)' eingelesen und mit '>:encoding(UTF-8)' wieder ausgeben in die Datei "VokList".
In der Datei (s. Anhang) sieht man, dass der Langenscheidt Vokabeltrainer Nomen/Verb/Adj/Adv - Angaben mit exportiert hat. Die will ich wegfiltern.
Hiermit
matche ich zwar erfolgreich diese Angaben, ABER sobald ich den Ausdruck zu
ändere, matche ich nichts mehr.
Wieso, was ist das für ein Character in der Datei vor der Wortart-Angabe, wenn es kein whitespace ist? Dass es kein Tab ist, sieht man, habs auch trotzdem schon getestet ...
Anhänge