2014-11-11T13:00:30
jan991.) die Schreibweisen (St. <-> Sankt, Dr. <-> Doktor)können sich leicht unterscheiden. Wie vergleicht man am besten - ich hatte an soetaws wie Soundex gedacht. Eine bessere Idee ?
Das Soundex hier nicht ideal ist, wurde ja schon gesagt.
Meine Idee um die Einträge zu normalisieren:
Alle Abkürzungen expandieren, also aus "Dr." "Doktor", aus "St." "Sankt" und aus "Str." "Straße" machen. Abkürzungen solltest Du anhand des Punktes relativ einfach finden können. Schwieriger sind drei Aspekte:
- Man braucht eine komplette Liste aller Abkürzungen und ihrer Expansionen. Keine Ahnung, wie umfangreich die wird.
- Manchmal wird nur das Ende des Wortes abgekürzt, z.B. "Kornstr." für "Kornstraße". Da muss man dann rausfinden, wo die Abkürzung beginnt. Aber wahrscheinlich sind es nur sehr wenige Abkürzungen, für die dies vorkommt, so dass - wenn man den kompletten String nicht als Abkürzung kennt - die verbliebenen Möglichkeiten einfach als Liste von Regex durchprobieren kann.
- Gibt es Abkürzungen deren Expansion nicht eindeutig ist, z.B. eine "H.-Schmidt-Str.", die "Hans-Schmidt-Straße" oder "Herbert-Schmidt-Straße" sein könnte?
Tippfehler hast Du damit natürlich noch nicht erschlagen.