Spidering: flexibel Webseiten filtern, aber wie? (Webframeworks, Sonstige Fragen zur Webprogrammierung mit Perl)

[thread]17405[/thread]

Spidering: flexibel Webseiten filtern, aber wie?

Tags: perl5 Ähnliche Threads

Leser: 16

Articles: hide open all | hide show old branches

+5 replies
Nordlicht

2012-05-08 15:07
User since
2005-10-16
182 Artikel
BenutzerIn
Hi,

Ich hab ein Programm, dass aus unterschiedlichen Webseiten bestimmte Informationen raus filtern und sammeln soll. Das Problem ist, jede dieser Webseiten ist anders aufgebaut. Ich bin also theoretisch gezwungen für jede Webseite einen eigenen Filter zu entwickeln.

In "Spidering Hacks" (Kevin Hemenway & Tara Calishain) wird solch eine Lösung gezeigt. Dort wird für jede neue Seite ein eigener Filter programmiert und wie ein Addon in das Hauptprogramm integriert. Für 3 Webseiten fand ich das akzeptabel, aber bei einer größeren Menge an Webseiten würde diese Lösung viel Arbeit bedeuten. Deswegen hab ich mir folgende Gedanken gemacht:

Stellt euch vor, ich könnte eine Art Konfigurationsdatei (z.B. in XML) schreiben, die dem Programm genau sagt, an welchen Stellen der Webseite es die gewünschten Informationen findet. Beispielsweise die HTML-Tags in denen sich Produktname und Preis befinden.

Ich müsste nicht mehr für jede Seite einen neuen Filter programmieren, sondern nur die Anweisungen in der Konfigurationsdatei ändern. In der Hoffnung, dass das schneller geht ;) Mein Problem ist die Umsetzung. Im Prinzip müsste man dazu einen Parser entwickeln, der XML-Anweisungen in HTML::Treebuilder-Operationen übersetzt.

Dies ist ein Ausschnitt aus den Ergebnissen einer Suchanfrage auf Alternate.de. Da die interessanten Tags nicht alle über signifikante Attribute verfügen, ist es nicht immer einfach sie zu isolieren:
Code: (dl )

1 2 3 4 5

 Corsair DIMM 16 GB DDR3-1600 Quad-Kit CML16GX3M4X1600C7, Vengeance LP XMP Auf Lager
Versucht man aus diesem Teil des Codes den Produktnamen zu ermitteln muss man zunächst nach dem span-Tag mit dem class="product" Attribut suchen um dessen Child-Tags, die keinerlei signifikante Attribute haben zu untersuchen. Erkennen müsste der Filter diesen Ausschnitt:
Code: (dl )

1 2 3

Corsair DIMM 16 GB DDR3-1600 Quad-Kit CML16GX3M4X1600C7, Vengeance LP XMP 
Wie verpackt man einen entsprechenden Filter in eine XML-Datei und wie müsste der Parser aussehen?

Ihr kennt sicher alle das HTML::Treebuilder Modul. Damit kann man ja jede Information finden, egal wie versteckt sie ist. Nur einen Parser zu entwickeln, der (wie auch immer geartete) XML-Anweisungen in Treebuilder-Operationen übersetzt ist viel komplizierter als ich dachte. Erstrecht wenn einem verschachtelte HTML-Tags das Leben schwer machen.

Deswegen meine Frage: Ist mein Ansatz zu kompliziert? Ich wollte eine Vereinfachung, aber jetzt wächst mir diese Vereinfachung über den Kopf. Ich bin nicht fit genug in XML um solch eine Struktur zu entwickeln, wie sie hier nötig wäre. Aber ich finde die Idee ansich gar nicht so verkehrt.

Was meint ihr dazu? Gibt es eventuell schon Module die etwas ähnliches ermöglichen? Ich hab bisher keine gefunden.

Gruß, Nordlicht.
Last edited: 2012-05-08 15:11:18 +0200 (CEST)
- +2 replies
- topeg
 
 2012-05-08 15:51
 
 User since
 2006-07-10
 2611 Artikel
 BenutzerIn
 
 "Xpath" ist eine Beschreibungssparche für den Zugriff auf bestimmte Elemente innerhalb von XML-Dokumenten (Auch HTML kann damit gehandhabt werden) Einige Module können damit umgehen. Das dürfte so ziemlich das sein was du suchst.
 - Nordlicht
 
 2012-05-11 03:41
 
 User since
 2005-10-16
 182 Artikel
 BenutzerIn
 
 Diese XPath-Ausdrücke kann ich auch aus einer Datei einlesen... oder? Dann hätte ich eine Konfigurationsdatei, die meinem Programm sagt, wo es suche muss, stimmts?
 Last edited: 2012-05-11 03:42:54 +0200 (CEST)
- +2 replies
- Taulmarill
 
 2012-05-08 16:06
 
 User since
 2004-02-19
 1750 Artikel
 BenutzerIn
 
 Ich benutze für solche Aufgaben mittlerweile gerne Mojo::DOM. Damit lassen sich HTML-Dokumente mit CSS3-Selektoren durchsuchen.
 $_=unpack"B*",~pack"H*",$_ and y&1|0& |#&&print"$_\n"for@.=qw BFA2F7C39139F45F78 0A28104594444504400 0A2F107D54447DE7800 0A2110453444450500 73CF1045138445F4800 0 F3EF2044E3D17DE 8A08A0451412411 F3CF207DF41C79E 820A20451412414 83E93C4513D17D2B
 - Nordlicht
 
 2012-05-11 03:41
 
 User since
 2005-10-16
 182 Artikel
 BenutzerIn
 
 Ich schau mir das Modul mal an... das kenne ich noch nicht

View all threads created 2012-05-08 15:07.