Thread Text aus html Dateien lesen und in Datei schreiben (13 answers)
Opened by binse at 2013-11-28 15:52

clms
 2013-12-05 19:10
#172459 #172459
User since
2010-08-29
373 Artikel
BenutzerIn
[default_avatar]
2013-12-05T17:25:25 binse
Der Html-Code in den vielen Html-Dateien ist valide und mit einem Programm erzeugt.
Es ist immer alles am selben Platz. Da war ich sehr penibel.
Hier die Zeile 28 aus dem Html-Code:
Code: (dl )
<img border="0" src="../img_big/photo581_big.JPG" alt="München, Augsburg, B2, Franz jagt im komplett verwahrlosten Taxi quer durch Bayern, September 2012" title="München, Augsburg, B2, Franz jagt im komplett verwahrlosten Taxi quer durch Bayern, September 2012">


Ich brauche den Dateinamen, alt= und title= in diesem Format:

Code: (dl )
"photo581_big.JPG";"München, Augsburg, B2, Franz jagt im komplett verwahrlosten Taxi quer durch Bayern, September 2012";"München, Augsburg, B2, Franz jagt im komplett verwahrlosten Taxi quer durch Bayern, September 2012"

Wenn die Attribute src, alt und title immer in der gleichen Reihenfolge stehen, kannst du es mit einer einzigen Regex probieren:
Code (perl): (dl )
1
2
3
$line =~ m:\<img.+src=".+/(.*\.JPG)".+alt=("[^"]*").+title=("[^"]*"):;
my ($src, $alt, $title) = ($1,$2;$3);
my $result = sprinf('"%s";%s;%s', $src, $alt, $title);

könnte funktionieren, wenn $line die betreffende Zeile enthält.

Wenn die Reihenfolge der Attribute innerhalb des IMG-Tags nicht feststeht, muss man die Aufgabe auf drei Regex aufteilen und dort jeweils ein Attribut extrahieren.

View full thread Text aus html Dateien lesen und in Datei schreiben