Ähnlichkeit zweier Schlagzeilen. (Allgemeine technische Fragen)

[thread]19716[/thread]

Ähnlichkeit zweier Schlagzeilen.

Leser: 15

Articles: hide open all | hide show old branches

+5 replies
mika

2015-07-08 14:47

User since
2010-10-02
168 Artikel
BenutzerIn

Hallo,

mich nervt es etwas im News-Reader (RSS/ATOM usw.) bei unterschiedlichen Feeds, über die selbe News/das selbe Ereignis zu lesen. Z.B. Focus und Spiegel bringen die selbe News das ein Sack-Reis umgefallen ist und Euro-News bringt es dann auch nochmal nur als NO COMMENT...

Daher Frage ich mich gibt es schon technische Ansätze um hier ähnliche Schlagzeilen (Der Teil der in XML::FEED::ENTRY->title steht) zu erkennen und prozentual o.ä. die Ähnlichkeit zu bestimmen.

Und wenn ja, wie gut funktioniert das auf den tatsächlichen Inhalt und Bedeutung der Schlagzeile.

Ganz allgemein gefragt und nicht unbedingt auf Perl oder XML::FEED bezogen.

So könnte ich ähnliche Meldungen gruppieren oder auch doppelte/ähnliche Meldungen "ausblenden" (nicht beachten).
Last edited: 2015-07-08 15:11:06 +0200 (CEST)
- +3 replies
- jan
  
  2015-07-08 15:19
  
  User since
  2003-08-04
  2536 Artikel
  ModeratorIn
  
  Du könntest es vielleicht mit der Levenshtein-Distanz probieren. Das ist recht einfach und dennoch gerade bei Nachrichten sicher nicht verkehrt, weil sie alle nur von dpa copy&pasten.
  - +2 replies
  - mika
    
    2015-07-08 16:43
    
    User since
    2010-10-02
    168 Artikel
    BenutzerIn
    
    2015-07-08T13:19:39 jan
    Levenshtein-Distanz
    
    Danke – Am WE werde ich damit und etwas über 1200 Schlagzeilen (aus dem aktuellen "Cache/Buffer") mal rumspielen und schauen wie sich damit ein Vergleich in der Praxis macht.
    Last edited: 2015-07-08 16:56:35 +0200 (CEST)
    - jan
      
      2015-07-08 19:24
      
      User since
      2003-08-04
      2536 Artikel
      ModeratorIn
      
      Wenn's nicht ausreichend gut klappt, wäre Google News vielleicht einen Versucht wert, Google matcht die Themen ja zusammen und hat insofern da schon Daten, um zu sagen "das und das beschreiben die selbe Nachricht". Vielleicht kannst Du das anzapfen.
- bianca
  
  2015-07-09 09:22
  
  User since
  2009-09-13
  7016 Artikel
  BenutzerIn
  
  Für Textvergleiche verwende ich String::Diff und bin sehr zufrieden damit. Allerdings benutze ich es für längere Texte. Wie es sich bei Schlagzeilen verhält, weiss ich nicht. Vielleicht lohnt trotzdem ein Test?
  10 print "Hallo"
  20 goto 10

View all threads created 2015-07-08 14:47.