User since
2006-05-16
81
Artikel
BenutzerIn
Hallo Freunde,
mit Mechanize und Mojo spidere ich einmal täglich einige Dutzend Domains (Gallerien mit hunderten Profilen) und extrahiere dort Profildaten (Name, Alter, Haarfarbe etc.) ... für jede dieser Domains wurde von mir jeweils ein eigenes "Extraktionstemplate" geschrieben da CSS + html von Domain zu Domain unterschiedlich sind.
Einige Webdesigns wurden scheinbar von "Hobbywebmastern" erstellt sodass die Struktur (CSS/html) manchmal sogar von Profil zu Profil (etwas) anders ist ... da wird dann mal ein <strong> gesetzt/vergessen (wo normalerweise (k)eins ist) oder h1 wird zu h2 etc. .... wenn Mojo mein "Extraktionstemplate" abarbeitet und dann an eine fehlerhafte Stelle gelangt (wo normalerweise ein strong erwartet wird aber keins zu finden ist), bekomme ich eine Fehlermeldung und das Spiderscript bricht ab.
Gibt es eine Möglichkeit solche Fehler global abzufangen und zu skippen/nexten sodass der Spider einfach beim nächsten Profil weitermacht und nicht abbricht?
Das Problem ist nämlich .... jedes "Extraktionstemplate" hat bis zu 500 Zeilen Code und ich müsste jedes einzelne (über 30) anpassen und in jede Zeile/Routine ein Fehlerhandler nachtragen .... das wäre aber leider extrem aufwändig ....
Daher wollte ich mal fragen ob es da eine andere Möglichkeit gibt soetwas im Nachhinein (global) abzufangen ....
Über Tipps oder Hilfe würde ich mich freuen!
Danke und viele Grüße
Matthias
Last edited: 2015-01-19 23:32:33 +0100 (CET)