Thread utf8 mit HTML::Treebuilder verarbeiten (8 answers)
Opened by Nordlicht at 2011-11-09 06:22

Nordlicht
 2011-11-09 12:27
#154054 #154054
User since
2005-10-16
182 Artikel
BenutzerIn
[default_avatar]
joa stimmt... funktioniert auch sehr gut mit decoded_content.

Eine frage hab ich dann aber doch noch...
Ich sammel Informationen aus einer Liste... und in jeder Zeile dieser Liste befindet sich ein Link dem ich folge um von der dahinter liegenden Seite eine Beschreibung auszulesen. Also das Prinzip ist immer:

- Erste Seite einlesen
- Zeilen finden, link adresse extrahieren
- dem link folgen, beschreibung extrahieren.

Das Problem ist... wenn ich für jede der Seiten ein HTML::Treebuilder-Objekt erzeuge wird das Script extrem langsam, weil es andauernd die Bäume aufbauen muss und sie einige Sekunden später wieder zerstören.

Ich hab versucht die gleichen Infos mit HTML-TokeParser zu extrahieren, aber das ist irgendwie viel komplizierter und ich bin mir nicht mal sicher ob ich damit etwas Geschwindigkeit rausholen könnte...

Eigentlich ist das Tempo nicht so wichtig, da ich eh die Bandbreite des Servers schonen und nicht im Millisekunden-Takt über die Website rattern will, aber mein Rechner hat halt ne Menge zu tun mit dem Auf- und Abbau der Baum-Strukturen. Würde das gerne irgendwie weniger speicherlastig lösen.

Gibts da ne Möglichkeit?

Last edited: 2011-11-09 12:28:12 +0100 (CET)

View full thread utf8 mit HTML::Treebuilder verarbeiten