Thread RegEx und HTML...: oder doch besser HTML::Parser?
(6 answers)
Opened by root at 2006-03-04 20:36
Hilfe!
ich möchte gerne aus einer HTML Datei die erste Headline rausschen. Am liebsten sind mir RegEx, da es möglichst auf jedem Webserver laufen soll und man nie weiss welche Module so installiert sind. Hier mein Versuch, leider wird nichts gefunden. Code: (dl
)
1 # Eine evtl vorhandene Headline finden, h1, h2, h3 Anschließend möchte ich gerne die ersten 150 Zeichen haben. Wenn eine Headline gefunden wurde soll diese ausgeschlossen werden. Außerdem soll das ganze nicht direkt nach 150 Zeichen aufhören, sondern noch bis zur nächsten Wortgrenze gehen. Problem dabei ist, ich weiss nicht ob vielleicht ein <p> oder sowas dann noch nicht geschlossen wurde... Da bin ich nicht nur RE mäßig ratlos... Hier auch dazu ein nicht funktionierender Codeschnipsel: Code: (dl
)
1 # Den oberen Teil rausfiltern. Angegebene Zeichenzahl aber erst bei Leerzeichen, die maximalanzahl kann also um die länge eines Wortes überschritten werden.. Danke für eure Hilfe! |