mich nervt es etwas im News-Reader (RSS/ATOM usw.) bei unterschiedlichen Feeds, über die selbe News/das selbe Ereignis zu lesen. Z.B. Focus und Spiegel bringen die selbe News das ein Sack-Reis umgefallen ist und Euro-News bringt es dann auch nochmal nur als NO COMMENT...
Daher Frage ich mich gibt es schon technische Ansätze um hier ähnliche Schlagzeilen (Der Teil der in XML::FEED::ENTRY->title steht) zu erkennen und prozentual o.ä. die Ähnlichkeit zu bestimmen.
Und wenn ja, wie gut funktioniert das auf den tatsächlichen Inhalt und Bedeutung der Schlagzeile.
Ganz allgemein gefragt und nicht unbedingt auf Perl oder XML::FEED bezogen.
So könnte ich ähnliche Meldungen gruppieren oder auch doppelte/ähnliche Meldungen "ausblenden" (nicht beachten).
Last edited: 2015-07-08 15:11:06 +0200 (CEST)
+3 replies
jan
2015-07-08 15:19
User since 2003-08-04
2536
Artikel ModeratorIn
Du könntest es vielleicht mit der Levenshtein-Distanz probieren. Das ist recht einfach und dennoch gerade bei Nachrichten sicher nicht verkehrt, weil sie alle nur von dpa copy&pasten.
Danke – Am WE werde ich damit und etwas über 1200 Schlagzeilen (aus dem aktuellen "Cache/Buffer") mal rumspielen und schauen wie sich damit ein Vergleich in der Praxis macht.
Last edited: 2015-07-08 16:56:35 +0200 (CEST)
jan
2015-07-08 19:24
User since 2003-08-04
2536
Artikel ModeratorIn
Wenn's nicht ausreichend gut klappt, wäre Google News vielleicht einen Versucht wert, Google matcht die Themen ja zusammen und hat insofern da schon Daten, um zu sagen "das und das beschreiben die selbe Nachricht". Vielleicht kannst Du das anzapfen.
bianca
2015-07-09 09:22
User since 2009-09-13
7016
Artikel BenutzerIn
Für Textvergleiche verwende ich String::Diff und bin sehr zufrieden damit. Allerdings benutze ich es für längere Texte. Wie es sich bei Schlagzeilen verhält, weiss ich nicht. Vielleicht lohnt trotzdem ein Test?