Thread Query von Hyperlinks sortieren
(26 answers)
Opened by mika at 2020-01-28 14:01
Hallo @all,
hier nun der Hintergrund zur Frage: in meinem Projekt habe ich eine Skript (Das Git sollte aktuell sein), was von sagen wir z.Z. 100 Webseiten deren Newsfeeds abarbeitet und nach Stichworten in der Überschrift durchsucht XML::Feed::Entry->title. Wenn ein Webfeed-Artikel passt, wird der Link zum Artikel in einen neuen "gemeinsamen" Feed XML::Feed kopiert. Die ID für den XML::Feed::Entry ist der Link. Nun haben mache Seiten aber mehrere Querys für einen Artikel und diese stehen dann auch doppelt im neuen "gemeinsamen" Feed: https://www.stern.de/panorama/weltgeschehen/nachri... https://www.stern.de/panorama/weltgeschehen/nachri... https://www.stern.de/panorama/weltgeschehen/nachri... https://www.stern.de/panorama/weltgeschehen/nachri... Solche Fälle möchte ich erkennen und nur einmal in den neuen "gemeinsamen" Feed aufnehmen. Ich hoffe es ist verständlich was ich tue, bzw. haben möchte. Das Skript oben läuft auch schon, nur halt dem Schönheitsfehler von Dopplungen. Last edited: 2020-01-29 08:06:08 +0100 (CET) |