2011-01-13T09:15:06
pktmGibt es ein Modul, um alle Wörter aus einer Webseite zu extrahieren?
Dazu zähle ich auch Text in Links, Link-Titeln, Meta-Tags usw.
Ein auf Deine Aufgabe spezialisiertes Modul kenne ich nicht.
Ich würde mit
HTML::TreeBuilder arbeiten.
Den normalen Text kannst Du da mit
as_text() extrahieren.
Außerdem hast Du komfortable Funktionen um den HTML-Tree nach bestimmten attributen zu durchforsten und deren Werte zu extrahieren.
Die Liste, welches Attribut in welchem Tag Du als Text ansiehst und welches nicht, musst du ohnehin selbst festlegen.