Thread Alle Wörter aus Webseite extrahieren
(2 answers)
Opened by pktm at 2011-01-13 10:15 2011-01-13T09:15:06 pktm Ein auf Deine Aufgabe spezialisiertes Modul kenne ich nicht. Ich würde mit HTML::TreeBuilder arbeiten. Den normalen Text kannst Du da mit as_text() extrahieren. Außerdem hast Du komfortable Funktionen um den HTML-Tree nach bestimmten attributen zu durchforsten und deren Werte zu extrahieren. Die Liste, welches Attribut in welchem Tag Du als Text ansiehst und welches nicht, musst du ohnehin selbst festlegen. |