OK, hier mal der Inhalt der Subroutine. Ist nichts besonderes. Das Korpus wird eingelesen und einem Hash gespeichert.
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
sub lese_korpus {
my $dateiname = shift;
my %hash_korpus;
open my $input, "<", $dateiname or return 0;
while (my $zeile = <$input>) {
# Whitespace entfernen und normalisieren:
$zeile =~ s/(\S+)\s+(\S+)/$1 $2/;
$zeile =~ s/^\s+//;
# Leere Zeilen überspringen
next if ($zeile eq '');
# Token und Tag im Hash als Schlüssel und Wert ablegen:
$zeile =~ s/(\S+)\s(\S+)/$hash_korpus{$1}=$2/ge;
}
close $input;
return %hash_korpus;
}