Thread Textnormalisierung...Hilfe! (18 answers)
Opened by Gast at 2008-06-26 17:45

Linuxer
 2008-06-26 19:13
#111564 #111564
User since
2006-01-27
3890 Artikel
HausmeisterIn

user image
Anhand der Beschreibung denke ich an folgende Vorgehensweise:

- Text einmal durchsuchen nach kleingeschriebenen Wörter; Wörter in einem Index ablegen
- Text noch einmal parsen; für jedes Wort am Satzanfang ist dann gegen den Index zu prüfen, ob das Wort kleingeschrieben schon mal vorkam; wenn ja, dann ersetzen...

Edit:
Um pqs Ansatz aufzugreifen:
Natürlich gibt es dann immer noch das Problem, den Worttyp korrekt zu identifizieren:

Code: (dl )
Ruhe sanft . Die Ruhe vor dem Sturm . Er ruhe in Frieden . Ruhe ist's, was er sucht .


Wie soll nun entschieden werden, ob "Ruhe" am Satzanfang groß oder klein geschrieben werden soll?


meine Beiträge: I.d.R. alle Angaben ohne Gewähr und auf Linux abgestimmt!
Die Sprache heisst Perl, nicht PERL. - Bitte Crossposts als solche kenntlich machen!

View full thread Textnormalisierung...Hilfe!