Thread Textnormalisierung...Hilfe!
(18 answers)
Opened by Gast at 2008-06-26 17:45
Anhand der Beschreibung denke ich an folgende Vorgehensweise:
- Text einmal durchsuchen nach kleingeschriebenen Wörter; Wörter in einem Index ablegen - Text noch einmal parsen; für jedes Wort am Satzanfang ist dann gegen den Index zu prüfen, ob das Wort kleingeschrieben schon mal vorkam; wenn ja, dann ersetzen... Edit: Um pqs Ansatz aufzugreifen: Natürlich gibt es dann immer noch das Problem, den Worttyp korrekt zu identifizieren: Code: (dl
)
Ruhe sanft . Die Ruhe vor dem Sturm . Er ruhe in Frieden . Ruhe ist's, was er sucht . Wie soll nun entschieden werden, ob "Ruhe" am Satzanfang groß oder klein geschrieben werden soll? meine Beiträge: I.d.R. alle Angaben ohne Gewähr und auf Linux abgestimmt!
Die Sprache heisst Perl, nicht PERL. - Bitte Crossposts als solche kenntlich machen! |