Thread Platzhalter für HTML-Ausdrücke (reguläre Ausdrücke) (47 answers)
Opened by vitopetre at 2010-04-02 09:42

vitopetre
 2010-04-05 22:29
#135727 #135727
User since
2010-02-14
25 Artikel
BenutzerIn
[default_avatar]
Zuerst möchte ich mich wieder bei euch für euere Antworten bedanken - besonders bei Bianca.

Was ich nicht ganz an deinem großartigem WWW::Mechanize Programm verstehe ist allerdings wo bzw. wie dabei definiert ist was ein link ist oder was der zum Link zugehörige Text ist - ist das bei WWW::Mechanize schon so vordefiniert?

Wie kann ich denn bei deinem Programm einen Bereich innerhalb des HTML-Skripts festlegen, so dass das Programm erst ab da arbeitet wo die wichtigen Informationen stehen und wieder aufhört bevor der Code für Banner, etc. kommt?

Außerdem muss ich außer dem Link und dem Titel des Artikels auch noch die Informationen über den Autor und das Abstract aus dem HTML-Dokument holen, einfach wollte ich selbst rausfinden wie das geht, aber nachdem in dem WWW::Mechanize Programm keine Anfangs- oder Endpunkte festlegt, zwischen denen die Information herausgeschnitten werden kann, fehlt mir der Ansatz wie ich hier weitermachen soll und alles was ich so über WWW::Mechanize an Infos im Netz finde hilft mir irgendwie auch nicht wirklich weiter.

Was die anderen Kommentare angeht:

Was ist denn das Problem mit WWW:Mechanize oder warum ist die Nutzung von HTML-Parser, Web-Scraper, etc. so viel besser?

Das Problem das GwenDragon anspricht kann ich zumindest nicht nachvollziehen.
Meinst du dass die <keep this here>-Klammer das letzte Wort des Artikelnamens abschneiden würde? Aber passiert das den oft?
Ich kenn mich in HTML auch nicht viel besser aus als in Perl, aber gegen schlechten Code oder Rechtschreibfehler kann man halt nicht immer was machen... - wie umgehen denn die von dir genannten Parser dieses Problem Gwen?
Wo ist die Verbindung zu Regex?

Nochmal vielen herzlichen Dank für Eure Antworten!

P.S.: Es ist zwar super lieb und großartig, wenn ihr mir ein kleines Programm schreibt, aber eigentlich wäre mir eine Erklärung wichtiger, denn ich hab in der zwischenzeit 4 "Bücher" zur Einführung in Perl, die mir alle erklären was ein assoziativer Array ist, wie man Bäume erstellt oder Listen sortiert aber irgendwie leider wenig zu meinem Problem HTML zu Parsen. Der Artikel von Renee geht zwar schon mehr in die Richtung an lehrreicher "Literatur" die ich suche, aber leider gibt es da wenig Erklärung und viel Code...

Für weitere besonders eventuell in Deutsch oder Englisch (nicht in Perl) abgefasste "Literatur" zum Thema Perl und HTML Parsen wäre ich euch SEHR Dankbar!

View full thread Platzhalter für HTML-Ausdrücke (reguläre Ausdrücke)