Thread Alle Wörter aus Webseite extrahieren (2 answers)
Opened by pktm at 2011-01-13 10:15

clms
 2011-01-13 11:14
#144649 #144649
User since
2010-08-29
373 Artikel
BenutzerIn
[default_avatar]
2011-01-13T09:15:06 pktm
Gibt es ein Modul, um alle Wörter aus einer Webseite zu extrahieren?
Dazu zähle ich auch Text in Links, Link-Titeln, Meta-Tags usw.

Ein auf Deine Aufgabe spezialisiertes Modul kenne ich nicht.

Ich würde mit CPAN:HTML::TreeBuilder arbeiten.
Den normalen Text kannst Du da mit as_text() extrahieren.
Außerdem hast Du komfortable Funktionen um den HTML-Tree nach bestimmten attributen zu durchforsten und deren Werte zu extrahieren.

Die Liste, welches Attribut in welchem Tag Du als Text ansiehst und welches nicht, musst du ohnehin selbst festlegen.

View full thread Alle Wörter aus Webseite extrahieren