1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45
use strict; use warnings; use feature qw(say); my %exclude; @exclude{qw(UTUER UEB UE1 UE2 UE3 UE10 UE11 UE12 UEL THUE)} = (); while (my $line = <DATA>) { chomp $line; my @words = split / /, $line; for (@words) { next if exists $exclude{uc $_}; s/ae([^u])/ä$1/g; s/A[eE]([^uU])/Ä$1/g; s/([^ae])ue/$1ü/g; s/([^ae])U[eE]/$1Ü/g; s/oe/ö/g; s/O[eE]/Ö/g; } say join " ", @words; } __DATA__ Zunaechst mal noch etwas Input: Bei den Texten handelt es sich um Programmbeschreibungen, die einerseits normalen Text enthalten und anderseits kryptisch anmutende Fachkuerzel beinhalten. Diese Fachkuerzel sollen unveraendert erhalten bleiben. Im uebrigen habe ich heute festgestellt, dass sich die Liste der Fachkuerzel vermutlich um ein Vielfaches erweitern wird. Die Liste muss alle Fachkuerzel enthalten, die ae, oe oder ue enthalten. UTUER UEB UE1 UE2 UE3 UE10 UE11 UE12 UEL THUE Ich gehe mal davon aus, dass die Fachkuerzel eigenstaendige Woerter sind, also keine Wortteile eines groesseren Wortes. Das muss ich aber noch verifizieren. Prinzipiell ist richtig, dass ss noch ggf. in ss konvertiert werden muss. Aber das moechte ich mir dann als Kuer aufbewahren. Wenn man die Fachkuerzel zunaechst ausser Acht laesst, koennen folgende Such- bzw. Ersetzen-RegEx unter Beruecksichtigung der Gross- und Kleinschreibung verwendet werden:
2014-03-18T20:58:04 Tom950Suchen: -> Ersetzen:
ae([^u]) -> ä$1
A[eE]([^uU]) -> Ä$1
([^ae])ue -> $1ü
([^ae])U[eE] -> $1Ü
1 2 3 4
$text =~ s/ae(?!u)/ä/g; # negativer lookahead $text =~ s/A[eE](?![uU])/Ä/g; $text =~ s/(?<![ae])ue/ü/g; # negativer lookbehind $text =~ s/(?<![ae])U[eE]/Ü/g;
2014-03-19T06:31:54 FIFOApropos:
Tetraeder, zuende
2014-03-19T08:14:35 RaubtierWird zu "Teträder, zünde", also immerhin 50% richtig.
2014-03-20T04:09:59 Tom950Wieso runter laden? Module installiert man mit dem Programm cpan.Ich habe mir das Sprachpaket runter geladen und stehe nun vor den Problem, wie ich es in meine Strawberry-Installation integrieren soll.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26
use warnings; use strict; my %umlautWords; my $umlautWordPattern = qr( [aou]e )ixo; for my $file ( glob( 'C:/myPath/*.txt' ) ) { my $data; open( my $FH, '<', $file ) or next; { local $/; $data = <$FH>; } close $FH; while ( $data =~ / \b (\w+) \b /oxg ) { my $word = $1; if ( $word =~ $umlautWordPattern ) { next if exists $umlautWords{ $word }; $umlautWords{ $word } = 1; } } print "$file completed\n"; } print "$_\n" for ( sort { uc( $a ) cmp uc( $b ) } keys %umlautWords );