Thread 3 Fragen: Trefferliste umstrukturieren, mit gefunden Links weiterarbeiten + wie kann ich nur Teile eines Treffers anzeigen? (47 answers)
Opened by vitopetre at 2010-04-11 23:27

topeg
 2010-04-13 13:44
#135930 #135930
User since
2006-07-10
2611 Artikel
BenutzerIn

user image
Also diesbezüglich meine Erfahrungen.
Große Webseiten von Herstellern benutzen hoch detaillierte Templates, an denen sie alle 10 Jahre mal ändern und die einzelnen Seiten sind sich daher sehr ähnlich. So was ist nicht schwer mittels RegExp zu Parsen. Zeitungen dagegen haben meist Seiten, deren Templates sind sehr allgemein gefasst und vieles wird mit spezialisierten Modulen erzeugt und einfügt. Das sorgt für eine große Vielfalt und Veränderung der Seiten. Hier wird es sehr schwer, bis unmöglich RegExps zu nutzen. Vor allem wenn die Beiträge von "Hand" in HTML gequetscht wurden. Dann gibt es noch speziellere Plattformen (wie myspace oder wikipedia) Da mit Regulären ausdrücken ran zu wollen ist Selbstmord. Nicht nur das sich die Templates immer wieder ändern auch die Beträge der Benutzer sind sehr verschieden strukturiert und mittels Regexp kaum einheitlich zu parsen. Seiten wie Youtube ändern ständig Kleinigkeiten an der Seite, zum einen um das Parsen zu Erschweren, zum anderen um die Leute besser auf der Seite zu halten. Ganz schlimm sind Seiten von Privatpersonen, die mittels Tool oder von Hand erstellt wurden. Da muss man fast immer von Hand an die Sache, automatisch kommt man nur mit Glück an das gesuchte.

Die Seite des Erstposters, ist eine Zeitungsseite. Zudem ist dort das Template (so weit ich sehe) recht minimal (Kopf, Menü, Fußnote). Der gesamte Inhalt ist frei Strukturiert, Wenn man nicht speziell Sachen aus dem Template will, kommt man mit regulären Ausdrücken nicht weit.

View full thread 3 Fragen: Trefferliste umstrukturieren, mit gefunden Links weiterarbeiten + wie kann ich nur Teile eines Treffers anzeigen?