Thread HTML-Seite parsen
(14 answers)
Opened by pktm at 2009-10-12 12:21
Aus Vorsicht würde ich zu Modulen wie
HTML::TreeBuilder, HTML::Parse, HTML::Parser oder HTML::TagParser usw raten Wenn es sich um eine Seite handelt, die Immer gleich aufgebaut ist, und du sicher bist, dass sich das "Format" nicht ändert, und das herauslesen der Daten schnell gehen muss oder du einfache Datentypen nur einmalig lesen willst, dann könnte man darüber nachdenke einen passenden Regulären Ausdruck zu schreiben. Anders als XML ist HTML generisch kaum zu parsen, der Parser muss alle Tags kennen und wissen was sie erlauben und was nicht. Zudem sind gerade in HTML-Seiten Fehler nicht selten, sodass der Parser robust sein muss und raten was gemeint sein könnte. Das kann man mit einer RegExp kaum leisten. |