HTML-Seite parsen - #126899 (Allgemeines zu Perl)

topeg

2009-10-12 14:28

User since
2006-07-10
2611 Artikel
BenutzerIn

user image

Aus Vorsicht würde ich zu Modulen wie
CPAN:

HTML::TreeBuilder,
CPAN:

HTML::Parse,
CPAN:

HTML::Parser oder
CPAN:

HTML::TagParser usw
raten

Wenn es sich um eine Seite handelt, die Immer gleich aufgebaut ist, und du sicher bist, dass sich das "Format" nicht ändert, und das herauslesen der Daten schnell gehen muss oder du einfache Datentypen nur einmalig lesen willst, dann könnte man darüber nachdenke einen passenden Regulären Ausdruck zu schreiben.

Anders als XML ist HTML generisch kaum zu parsen, der Parser muss alle Tags kennen und wissen was sie erlauben und was nicht. Zudem sind gerade in HTML-Seiten Fehler nicht selten, sodass der Parser robust sein muss und raten was gemeint sein könnte. Das kann man mit einer RegExp kaum leisten.