Thread Textnormalisierung...Hilfe!
(18 answers)
Opened by Gast at 2008-06-26 17:45
Hallo zusammen,
Ich studiere Computerlinguistik und komme bei einer Aufgabe ums Verrecken nicht weiter und hoffe, dass ihr mir zumindest nen Tip geben könntet, wie ich die lösen könnte. Und zwar hab ich einen Text, in dem alle Wörter, alle Zahlen und alle Satzzeichen jeweils durch ein Leerzeichen voneinander getrennt sind. Der Text ist in der Variablen $text gespeichert. Die Aufgabe besteht darin, die Groß- und Kleinschreibung zu normalisieren. Das bedeutet, dass die Wörter, die normalerweise kleingeschrieben werden (Verben, Adjektive etc) am Satzanfang auch kleingeschrieben werden sollen. Die Aufgabe soll mit Regulären Ausdrücken gelöst werden. Um die Aufgabe zu lösen, sollen wir schauen, für welche Wörter man in diesem Text Evidenz findet, dass sie innerhalb eines Satzes kleingeschrieben werden. Tauchen diese Wörter nun auch am Satzanfang auf, sollen wir diese halt kleinschreiben. Ich habe schon zig Ansätze durchprobiert, doch keiner eignet sich für die Lösung. Habt ihr vielleicht eine Idee? Ich denke, man muss dabei mit Look-Ahead oder Look-Behind arbeiten, aber ich kriegs nicht hin. Vielen lieben Dank. Gruß, Remus |