Hallo,
wenn ich mit
WWW::Mechanize und $mech->content Daten aus einer Webseite auslese und die Beispiel-Datenstruktur präsentiert sich in etwa wie hier:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
<html>
<body>
<head>
<TITLE>
Testseite
</TITLE>
</head>
<table width="400" style="border-collapse: collapse" bordercolor="#B3B3C1" cellpadding="0" border="1" cellspacing="0">
<tr>
<td height=25 valign=middle bgcolor="#336699"> <font color="#FFFFFF">Aktivität </font> </td>
<td height=25 valign=middle bgcolor="#F4F4F4"> <b>Doktor</b></td>
</tr>
<tr>
<td height=25 valign=middle bgcolor="#336699"> <font color="#FFFFFF">Land </font> </td>
<td height=25 valign=middle bgcolor="#F4F4F4"> <b>Deutschland </b> ...</td>
</tr>
</table>
</body></html>
Wie komme ich am geschicktesten an die Informationen zwischen <td height=...> und </td> (ohne Farbe und Formatierung) ? Im Endergebnis soll das so aussehen:
Aktivität Land
Doktor Deutschland
Das Rezept 6.8 aus dem Perl Kochbuch hat hier leider nicht weitergeholfen :(
Ein Regex gibt mir zuviele Informationen, da noch mehr Daten in $mech->content drinstehen. Und mit
Web::Scraper,
LWP::Simple oder
HTML::Parser oder den Beiträgen bei perlmonks.org bin ich noch nicht weitergekommen (Informationen aus Webseiten extrahieren ist halt nicht mein Spezialgebiet...)
Danke für hilfreiche Ideen
Gruss MisterL
Last edited: 2019-11-21 16:17:40 +0100 (CET)
“Perl is the only language that looks the same before and after RSA encryption.”