Thread Modul zur Darstellung von Merkmalsräumen
(10 answers)
Opened by pktm at 2008-11-20 23:04
Ich habe nochmal über die Sache mit der Divergenz nachgedacht: Wenn man hier etwas differenzieren möchte, dann am besten die Funktion, die das am besten passende Dokument zu einem Suchvektor findet.
Die diskretisierte Divergenz dieser Funktion berechnet sich in etwa so: Man legt zunächst einen Suchvektor fest und berechnet dann nicht nur für den Suchvektor selbst sondern auch für Vektoren, die in jeweils einer der Komponenten vom Suchvektor aus um einen kleinen Betrag verändert wurden, das am besten passende Dokument. Anschliessend bestimmt man den Abstand zwischen den Dokumenten, die zu den modifizierten Suchvektoren passen, und dem Dokument, das zum ursprünglichen Suchvektor passt, und normiert diese Abstände über die jeweilige Veränderung am Suchvektor. Die Summe aus diesen normierten Abständen ist nun eine Näherung für die Divergenz der Suchfunktion im ursprünglichen Suchvektor. Damit bekommt man ein Maß dafür, wie spezifisch die Treffer der Suchfunktion sind. Je größer die Divergenz, desto breiter streuen die Treffer für leicht unterschiedliche Suchanfragen über den Merkmalsraum. Ich könnte mir vorstellen, dass das eine für die Analyse interessante Größe ist, weiß aber nicht, ob sie sich besonders gut zur Visualisierung eignet die Divergenz der Suchfunktion, welche eine Funktion von einem n-dimensionalen Raum in denselben Raum ist, ist immer noch eine Funktion von einem n-dimensionalen Raum in einen eindimensionalen Raum. edit: Allerdings kann es sein, dass diese Divergenzfunktion einem hilft, Cluster zu finden, was wiederum nützlich sein könnte, wenn man eine Projektions(hyper)ebene für die Visualisierung auswählen möchte. When C++ is your hammer, every problem looks like your thumb.
|