Daten extrahieren - #28577 (Webframeworks, Sonstige Fragen zur Webprogrammierung mit Perl)

topeg

2006-07-17 18:52

User since
2006-07-10
2611 Artikel
BenutzerIn

user image

HTML::Parser wäre auch meine erste Wahl, doch nicht immer steht er zur Verfügung.
Wenn die Kommentare "" immer drin sind, dann könntest du die hinzu ziehen. Ich gehe mal davon aus, daß es mehrere "<tr>...</tr>" Blöcke gibt.
Mal als Vorschlag:

Code: (dl )

#!/usr/bin/perl
use strict;
use warnings;
use Data::Dumper;

# hier soll die Seite drin sein:
my $html=<<TPG;
<tr class="row-1">

    <!-- Bug ID -->

    <td>
        0007044    </td>

    <!-- Category -->
    <td>
        [mantisbt] custom fields    </td>

    <!-- Severity -->
    <td>

        minor    </td>

    <!-- Reproducibility -->
    <td>
        always    </td>

    <!-- Date Submitted -->
    <td>
        05-08-06 00:26    </td>

    <!-- Date Updated -->
    <td>
        05-08-06 00:26    </td>

</tr>
<tr class="row-1">

    <!-- Bug ID -->

    <td>
        0007046    </td>

    <!-- Category -->
    <td>
        [mantisbt] custom fields    </td>

    <!-- Severity -->
    <td>

        minor    </td>

    <!-- Reproducibility -->
    <td>
        never    </td>

    <!-- Date Submitted -->
    <td>
        05-08-06 10:26    </td>

    <!-- Date Updated -->
    <td>
        05-08-06 10:26    </td>

</tr>
<tr class="row-1">
 <td>was ganz anderes</td>
</tr>
TPG
my @data=();
# als erstes den "<tr>..</tr>" Block extrahieren:
while($html=~m|<tr[^>]+>(.+?)</tr>|is)
{
  # hier kommt alles rein,
  # was in einem Block steht
  my $inhalt=$1;
  # nur das Ungeparste behalten.
  $html=$';
  # hier kommen die gesuchten Daten rein
  my %datensatz=();
  # Datensätze herausfischen
  while($inhalt=~m|<!--\s+(.+?)\s+-->\s+<td>\s+(.+?)\s+</td>|is)
  {
     $inhalt=$';
     $datensatz{lc($1)}=$2;
  }
  push(@data,\%datensatz)if(%datensatz>0);
}
print Dumper(\@data);

\n\n