Thread Query von Hyperlinks sortieren (26 answers)
Opened by mika at 2020-01-28 14:01

mika
 2020-01-29 08:04
#191223 #191223
User since
2010-10-02
168 Artikel
BenutzerIn

user image
Hallo @all,

hier nun der Hintergrund zur Frage:

in meinem Projekt habe ich eine Skript (Das Git sollte aktuell sein), was von sagen wir z.Z. 100 Webseiten deren Newsfeeds abarbeitet und nach Stichworten in der Überschrift durchsucht XML::Feed::Entry->title.

Wenn ein Webfeed-Artikel passt, wird der Link zum Artikel in einen neuen "gemeinsamen" Feed XML::Feed kopiert. Die ID für den XML::Feed::Entry ist der Link.

Nun haben mache Seiten aber mehrere Querys für einen Artikel und diese stehen dann auch doppelt im neuen "gemeinsamen" Feed:

https://www.stern.de/panorama/weltgeschehen/nachri...

https://www.stern.de/panorama/weltgeschehen/nachri...

https://www.stern.de/panorama/weltgeschehen/nachri...

https://www.stern.de/panorama/weltgeschehen/nachri...

Solche Fälle möchte ich erkennen und nur einmal in den neuen "gemeinsamen" Feed aufnehmen.

Ich hoffe es ist verständlich was ich tue, bzw. haben möchte. Das Skript oben läuft auch schon, nur halt dem Schönheitsfehler von Dopplungen.
Last edited: 2020-01-29 08:06:08 +0100 (CET)

View full thread Query von Hyperlinks sortieren