Thread Anfänger: RegEx-Templates / Handler?
(8 answers)
Opened by Ionit at 2014-09-05 16:24
Sehr geehrte Perl-Community,
ich bin blutiger Anfänger was Perl/Programmierung anbelangt und möchte, zum besseren Verständnis, gerne eine Frage stellen. Wenn man mit einem Perl-Spider diverse vordefinierte URLs aufruft um den dortigen Content extrahieren zu können (Alter, Haarfarbe, Figur, Beschreibung etc.) - die Anordnung des Contents aber von URL zu URL unterschiedlich ist, muss man dann für jede dieser URLs ein eigenes „RegEx-Template“ erstellen, das geladen wird wenn man eine bestimmte URL aufruft, um den Content extrahieren zu können? Auf URL_1 befinden sich die Daten z.B. in benannten Div-Containern – auf URL_2 befindet sich der Content aber in Listen <li> – auf URL_3 gibt es weder Listen sondern Tabellen etc. – sprich die Webseiten, die die Daten enthalten, sind völlig unterschiedlich. Wie verarbeitet man nun diesen Content? Gibt es in Perl überhaupt die Möglichkeit „RegEx-Templates“ anzulegen oder macht man das über Handler? Wenn es z.B. 300 URLs gibt (die immer unterschiedlich im Aufbau sind) muss man dann auch 300 „RegEx-Templates“ anlegen? Ich hoffe, meine Erklärungsversuche sind halbwegs verständlich … sorry wenn das etwas eigenartig klingt aber ich bin, wie oben erwähnt, absoluter Anfänger – daher entschuligt bitte meine unbeholfene Ausdrucksweise. Danke schon mal im Voraus. Matthias |