Thread Platzhalter für HTML-Ausdrücke (reguläre Ausdrücke) (47 answers)
Opened by vitopetre at 2010-04-02 09:42

vitopetre
 2010-04-02 09:42
#135612 #135612
User since
2010-02-14
25 Artikel
BenutzerIn
[default_avatar]
Hallo,

tut mir leid, ich bin immer noch sehr grün hinter den Ohren was PERL angeht, also verzeiht bitte, wenn ich was dummes fragen sollte bzw. meine Frage nicht korrektem Programmierdeutsch stellen kann.

Ich soll aus dem Quelltext einer Website verschiedene Informationen extrahieren und diese von Perl in eine übersichtlichere Form bringen lassen.
Dabei sind die HTML-Anweisungen in <spitzen Klammern> durchaus hilfreich, da ich damit Perl sagen kann zwischen welchen Klammern bestimmte Informationen stehen, jetzt wollte ich von euch wissen, ob es einen Platzhalter gibt, die dafür sorgt, dass Perl nur bestimmte Teile dieser HTML-Anweisung liest und den Rest ignoriert.

Hier ein Beispiel:

Im Quelltext stehen folgende Zeilen:
<a href="king/03king.html">An Approach to Open Access Author Payment</a>

<a href="holley/03holley.html">Crowdsourcing: How and Why Should Libraries Do It?</a>

Was ich brauche ist alles was zwischen den HTML-Anweisungen steht, also hier "An Approach to Open Access Author Payment" und "Crowdsourcing: How and Why Should Libraries Do It?".

Eigentlich müsste es doch jetzt irgendwie möglich sein mit einem Befehl der so ähnlich aussieht:

$item=~ m/<a href>(.+)<\/a>/;

diese von mir gewünschten Infos auszuschneiden, nur weiß ich nicht, was für einen "Platzhalter" ich hinter HREF schreiben muss, damit jede dieser HTML-Zeilen abgearbeitet werden kann ohne, dass ich für jede dieser Zeilen den exakten Namen der Anweisung schreiben muss.

Also das hier will ich NICHT und es geht auch gar nicht, wenn ich mich nicht täusche:

$item=~ m/<a href="holley/03holley.html">(.+)<\/a>/;


Vielen herzlichen Dank für eure Antworten!

Ich hoffe die Frage ist nicht zu dumm bzw. lästig für euch!
Last edited: 2010-04-02 09:45:10 +0200 (CEST)

View full thread Platzhalter für HTML-Ausdrücke (reguläre Ausdrücke)