Probleme mit RegEx und dem herunterladen einer Website (gelöst) - #180052 (Allgemeines zu Perl)

Corni

2015-03-08 13:19

User since
2015-03-08
7 Artikel
BenutzerIn
[default_avatar]

Hallo,
ich bin neu hier und kenne mich auch mit Perl nicht wahnsinnig aus. Viele der Begriffe für die Zuordnung der Fragen sagen mir nichts, also hoffe ich, dass ich meine Frage richtig zugeordnet habe.
Ich schreibe gerade eine Hausarbeit und brauche dafür als Grundlage ein Perl- Programm.
Ich lade mir dafür eine Website aus dem Internet herunter. Das klapp alles. Allerdings brauche ich für die Analyse nur den Beitrag, den der Autor in dem Forum auch tatsächlich geschrieben hat. Nur $Website=~ s/<.*?>//g reicht also nicht. Dann bleiben nämlich auch noch solche Dinge, wie "Next Thread" oder so, aber da das nicht vom Autor des Beitrages geschrieben wurde, muss ich das auch weg bekommen. Ich habe mir also die Seite genauer angesehen und versuche jetzt alle Tags zu entfernen. Also zb. <head>alles was dazwischen steht</head>. In Perl sieht das dann bei mir so aus $Website=~ s/<head>.*?<\/head>//g; Leider klappt das aber nicht. Nachdem das Programm gelaufen ist, gibt es <head> und dessen Inhalt immer noch.. Das zweite wäre <td irgendwas>. Das muss ich auch löschen. Aber mit $Website=~ s/<td .*?>.*?<\/td>//g; klappt das auch nicht.
Kann mir bitte jemand helfen?
Liebe Grüße
Last edited: 2015-03-08 13:31:21 +0100 (CET)