Schrift
[thread]11272[/thread]

Ähnlichkeitssuche ohne SQL-Datenbank

Leser: 1


<< >> 7 Einträge, 1 Seite
GwenDragon
 2008-02-09 11:59
#105740 #105740
User since
2005-01-17
14748 Artikel
Admin1
[Homepage]
user image
Folgende Problemstellung:
Es soll eine Ähnlichkeitssuche aufgebaut werden, bei der keine SQL-Datenbank benutzt werden kann.


kein SQL? Wieso? Schon weil das übliche Soundex in SQL nur bei Englisch richtig klappt.

Die Geschichte der Datenspeicherung ist schon zu lösen.
Eine Möglichkeit wäre CPAN:Tie::Hash.

Als Modul für die Errechnung der Ähnlichkeit würde ich CPAN:Text::Phonetic::Koeln nehmen.

Oder was meint ihr?


Das andere Problem ist der Aufbau dieser Datenbestände.

Woher an die Wörter selbst kommen?
GwenDragon
 2008-02-09 13:19
#105743 #105743
User since
2005-01-17
14748 Artikel
Admin1
[Homepage]
user image
Ich habe gerade auf http://wortschatz.uni-leipzig.de/html/wliste.html die 100-10 000 häufigsten Wörter gefunden.

Ich könnte auch auf die ispell-Wöeterbücher zugreifen und
es mit CPAN:Lingua-Spelling-Alternative versuchen. Oder CPAN:Text::Aspell.

Oder wohl selbst was schreiben.
ptk
 2008-02-09 14:19
#105747 #105747
User since
2003-11-28
3645 Artikel
ModeratorIn
[default_avatar]
Wie schnell muss es denn sein? Vielleicht reicht ja eine Textdatei und String::Approx bzw. agrep aus?
GwenDragon
 2008-02-09 15:22
#105748 #105748
User since
2005-01-17
14748 Artikel
Admin1
[Homepage]
user image
Eine Textdatei reicht wohl, weil ja nur ein Ähnlichkeitsvergleich mit einem festen Wortschatz, der aber dynamisch erweitert werden kann, aus vorhandenen Schlüsselwörtern gemacht werden soll.

GwenDragon
 2008-02-09 16:01
#105749 #105749
User since
2005-01-17
14748 Artikel
Admin1
[Homepage]
user image
Erst mal Danke für die Tipps.

agrep fällt leider weg, da auf dem Server kein Shellzugriff auf agrep möglich ist.

Mal sehen, was mir die 2.7 von String:Approx (als Perl-Only) an Langsamkeit bringt.

Ich sehe mir das mal an und schreibe ein Stresstest.
ptk
 2008-02-09 17:05
#105751 #105751
User since
2003-11-28
3645 Artikel
ModeratorIn
[default_avatar]
Weitere Stichwörter: Levenshtein, String::Similarity, Trigrams
Gibt's alles auf CPAN.
GwenDragon
 2008-02-09 19:44
#105754 #105754
User since
2005-01-17
14748 Artikel
Admin1
[Homepage]
user image
CPAN hatt ich schon am frühen Nachmittag durchforstet.
Bin ich schon vorhin drauf gestoßen.
Aber trotzdem Danke für den Tipp. ;)

Nutz ja auch anderen was, die später hier mal durchschauen.
<< >> 7 Einträge, 1 Seite



View all threads created 2008-02-09 11:59.