Thread Modul zur Darstellung von Merkmalsräumen
(10 answers)
Opened by pktm at 2008-11-20 23:04
Hmm, ich befinde mich hier weit außerhalb meines normalen Arbeitsgebietes, also lass mich mal nachfragen, ob ich das richtig verstehe: Du hast Vektoren, die jeweils ein Dokument charakterisieren. Diese Vektoren sind Elemente eines hochdimensionalen rellen Vektorraumes, wobei jede Dimension des Raumes einem Indexbegriff, in deinem Fall einem möglichen Wortstamm, entspricht. Die Komponenten der Vektoren geben irgendein Gewichtungsmaß des entsprechenden Indexbegriffes an, also zum Beispiel die Häufigkeit seines Auftretens in dem Dokument.
Definiert man jetzt noch eine Metrik auf dem Vektorraum, wobei es wahrscheinlich schon die normale euklidische Metrik tut, dann kann man durch Abstände oder Winkel zwischen den Vektoren die Ähnlichkeit der Dokumente beurteilen. Wählt man die Winkel als Ähnlichkeitsmaß, kann man die Vektoren auch getrost normieren, ohne Informationen zu verlieren. Stimmt das soweit? Wenn das soweit korrekt ist, verstehe ich aber immer noch nicht, wie man hier eine Divergenz bilden will. Man hat zwar eine große Menge Vektoren, aber keine "Positionen", denen sie zugeordnet werden. Ich versuche das mal mit einem Beispiel aus der klassischen Physik zu vergleichen: Wenn Wasser aus einem Spülbecken in den Abfluss fließt, kann man jedem Wassermolekül eine aktuelle Position im Spülbecken und eine aktuelle Geschwindigkeit relativ zum Abfluss zuordnen. Beides sind dreidimensionale, reelle Vektoren. Bildet man die Divergenz des Geschwindigkeitsfeldes, um zu bestimmen, wieviel Wasser von einer bestimmten Stelle aus im Abfluss verschwindet, so muss man dazu sowohl die Position im Spülbecken kennen, an der man die Divergenz wissen will, als auch die Geschwindigkeit der Wassermoleküle um die Position herum. In Deinem Beispiel kennt man aber nur das Analogon der Geschwindigkeiten und nicht das der Positionen der einzelnen Dokumente. Wo ist also mein Denkfehler? Ich kann Dir im Moment zum Bearbeiten grosser Datenmengen mit Methoden der Linearen Algebra und Analysis nur empfehlen, mal einen Blick auf die Modulkollektionen PDL und Math::GSL zu werfen. When C++ is your hammer, every problem looks like your thumb.
|