Daten extrahieren (Webframeworks, Sonstige Fragen zur Webprogrammierung mit Perl)

[thread]3024[/thread]

Daten extrahieren

Leser: 1

elvira

2006-06-17 14:08

User since
2006-06-14
5 Artikel
BenutzerIn
[default_avatar]

Hallo!

Wie kann ich die Daten wie z.B. Bug ID, Category, Severity...aus der folgenden HTML Datei extrahieren?

Code: (dl )

<tr class="row-1">

    <!-- Bug ID -->

    <td>
        0007044    </td>

    <!-- Category -->
    <td>
        [mantisbt] custom fields    </td>

    <!-- Severity -->
    <td>

        minor    </td>

    <!-- Reproducibility -->
    <td>
        always    </td>

    <!-- Date Submitted -->
    <td>
        05-08-06 00:26    </td>

    <!-- Date Updated -->
    <td>
        05-08-06 00:26    </td>

</tr>

ich habe's mit

Code: (dl )

if($row=~/<tr class="row-1">(.+)<\/tr>/m)

versucht, aber geht nicht...

bitte um Hilfe :)

code-tags von betterworld\n\n

betterworld

2006-06-17 14:16

User since
2003-08-21
2614 Artikel
ModeratorIn

user image

Du könntest ein Modul wie CPAN:

HTML::Parser benutzen.

Lieblingsmodule: CPAN:

IPC::System::Simple, CPAN:

Path::Class

topeg

2006-07-17 18:52

User since
2006-07-10
2611 Artikel
BenutzerIn

user image

HTML::Parser wäre auch meine erste Wahl, doch nicht immer steht er zur Verfügung.
Wenn die Kommentare "" immer drin sind, dann könntest du die hinzu ziehen. Ich gehe mal davon aus, daß es mehrere "<tr>...</tr>" Blöcke gibt.
Mal als Vorschlag:

Code: (dl )

#!/usr/bin/perl
use strict;
use warnings;
use Data::Dumper;

# hier soll die Seite drin sein:
my $html=<<TPG;
<tr class="row-1">

    <!-- Bug ID -->

    <td>
        0007044    </td>

    <!-- Category -->
    <td>
        [mantisbt] custom fields    </td>

    <!-- Severity -->
    <td>

        minor    </td>

    <!-- Reproducibility -->
    <td>
        always    </td>

    <!-- Date Submitted -->
    <td>
        05-08-06 00:26    </td>

    <!-- Date Updated -->
    <td>
        05-08-06 00:26    </td>

</tr>
<tr class="row-1">

    <!-- Bug ID -->

    <td>
        0007046    </td>

    <!-- Category -->
    <td>
        [mantisbt] custom fields    </td>

    <!-- Severity -->
    <td>

        minor    </td>

    <!-- Reproducibility -->
    <td>
        never    </td>

    <!-- Date Submitted -->
    <td>
        05-08-06 10:26    </td>

    <!-- Date Updated -->
    <td>
        05-08-06 10:26    </td>

</tr>
<tr class="row-1">
 <td>was ganz anderes</td>
</tr>
TPG
my @data=();
# als erstes den "<tr>..</tr>" Block extrahieren:
while($html=~m|<tr[^>]+>(.+?)</tr>|is)
{
  # hier kommt alles rein,
  # was in einem Block steht
  my $inhalt=$1;
  # nur das Ungeparste behalten.
  $html=$';
  # hier kommen die gesuchten Daten rein
  my %datensatz=();
  # Datensätze herausfischen
  while($inhalt=~m|<!--\s+(.+?)\s+-->\s+<td>\s+(.+?)\s+</td>|is)
  {
     $inhalt=$';
     $datensatz{lc($1)}=$2;
  }
  push(@data,\%datensatz)if(%datensatz>0);
}
print Dumper(\@data);

\n\n

View all threads created 2006-06-17 14:08.