Leser: 26
2009-10-12T10:21:18 pktm[...]
Ich brauche einfach jedes <li> in der Webseite.
[...]
QuoteWenn es sich um eine Seite handelt, die Immer gleich aufgebaut ist, und du sicher bist, dass sich das "Format" nicht ändert, und das herauslesen der Daten schnell gehen muss oder du einfache Datentypen nur einmalig lesen willst, dann könnte man darüber nachdenke einen passenden Regulären Ausdruck zu schreiben.
QuoteAnders als XML ist HTML generisch kaum zu parsen, der Parser muss alle Tags kennen und wissen was sie erlauben und was nicht.
QuoteNur zum Auslesen muss ein Parser nicht schauen ob das Dokument auch Valide ist. Sprich ob Tags korrekt verschachtelt sind wie erlaubt etc. Sowas kann man zum auslesen auch ignorieren da man ja nicht die Validität überprüfen will.
2009-10-12T12:28:35 topeg
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
#!/usr/bin/perl use strict; use warnings; use Web::Scraper; use LWP::Simple; my $content = get( 'http://perl-magazin.de/' ); my $scraper = scraper { process 'li', 'items[]' => 'TEXT'; result 'items'; }; my $result = $scraper->scrape( $content ); print $_,"\n" for @$result;