Daten zwischen zwei Ausdrücken drucken - #120772 (Allgemeines zu Perl)

MisterL

2009-04-20 17:59

User since
2006-07-05
334 Artikel
BenutzerIn
[default_avatar]

Hallo,

wenn ich mit CPAN:

WWW::Mechanize und $mech->content Daten aus einer Webseite auslese und die Beispiel-Datenstruktur präsentiert sich in etwa wie hier:

Code: (dl )

<html>
<body>
<head>
<TITLE>
Testseite
</TITLE>
</head>
<table width="400" style="border-collapse: collapse" bordercolor="#B3B3C1" cellpadding="0" border="1" cellspacing="0">

<tr>
<td height=25 valign=middle  bgcolor="#336699">&nbsp;&nbsp;<font color="#FFFFFF">Aktivität </font> </td>

<td height=25 valign=middle  bgcolor="#F4F4F4">&nbsp;&nbsp; <b>Doktor</b></td>
</tr>

<tr>
<td height=25 valign=middle  bgcolor="#336699">&nbsp;&nbsp;<font color="#FFFFFF">Land </font> </td>
<td height=25 valign=middle  bgcolor="#F4F4F4">&nbsp;&nbsp; <b>Deutschland&nbsp; </b>&nbsp;...</td>
</tr>
</table>
</body></html>

Wie komme ich am geschicktesten an die Informationen zwischen <td height=...> und </td> (ohne Farbe und Formatierung) ? Im Endergebnis soll das so aussehen:
Aktivität Land
Doktor Deutschland

Das Rezept 6.8 aus dem Perl Kochbuch hat hier leider nicht weitergeholfen :(
Ein Regex gibt mir zuviele Informationen, da noch mehr Daten in $mech->content drinstehen. Und mit CPAN:

Web::Scraper, CPAN:

LWP::Simple oder CPAN:

HTML::Parser oder den Beiträgen bei perlmonks.org bin ich noch nicht weitergekommen (Informationen aus Webseiten extrahieren ist halt nicht mein Spezialgebiet...)

Danke für hilfreiche Ideen

Gruss MisterL
Last edited: 2019-11-21 16:17:40 +0100 (CET)

“Perl is the only language that looks the same before and after RSA encryption.”