Thread Vokale im Umlaute wandeln
(20 answers)
Opened by Tom950 at 2014-03-18 06:48
Wo ist jetzt genau das Problem? Ich habe deine Ausdrücke genau 1:1 verwendet, dann kommt das hier raus (beachte, dass du das ue->ü vielleicht am Wortanfang anders behandeln willst).
Code (perl): (dl
)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 use strict; use warnings; use feature qw(say); my %exclude; @exclude{qw(UTUER UEB UE1 UE2 UE3 UE10 UE11 UE12 UEL THUE)} = (); while (my $line = <DATA>) { chomp $line; my @words = split / /, $line; for (@words) { next if exists $exclude{uc $_}; s/ae([^u])/ä$1/g; s/A[eE]([^uU])/Ä$1/g; s/([^ae])ue/$1ü/g; s/([^ae])U[eE]/$1Ü/g; s/oe/ö/g; s/O[eE]/Ö/g; } say join " ", @words; } __DATA__ Zunaechst mal noch etwas Input: Bei den Texten handelt es sich um Programmbeschreibungen, die einerseits normalen Text enthalten und anderseits kryptisch anmutende Fachkuerzel beinhalten. Diese Fachkuerzel sollen unveraendert erhalten bleiben. Im uebrigen habe ich heute festgestellt, dass sich die Liste der Fachkuerzel vermutlich um ein Vielfaches erweitern wird. Die Liste muss alle Fachkuerzel enthalten, die ae, oe oder ue enthalten. UTUER UEB UE1 UE2 UE3 UE10 UE11 UE12 UEL THUE Ich gehe mal davon aus, dass die Fachkuerzel eigenstaendige Woerter sind, also keine Wortteile eines groesseren Wortes. Das muss ich aber noch verifizieren. Prinzipiell ist richtig, dass ss noch ggf. in ss konvertiert werden muss. Aber das moechte ich mir dann als Kuer aufbewahren. Wenn man die Fachkuerzel zunaechst ausser Acht laesst, koennen folgende Such- bzw. Ersetzen-RegEx unter Beruecksichtigung der Gross- und Kleinschreibung verwendet werden: Damit du auch noch was zu tun hast: ich splitte an / /, du musst für die Exclude-List aber noch Satzzeichen beachten... Last edited: 2014-03-18 23:13:27 +0100 (CET) |