Thread utf8 mit HTML::Treebuilder verarbeiten (8 answers)
Opened by Nordlicht at 2011-11-09 06:22

Nordlicht
 2011-11-09 06:22
#154045 #154045
User since
2005-10-16
182 Artikel
BenutzerIn
[default_avatar]
Moin,

Ich hab ein Problem mit HTML::Treebuilder. Ich möchte Informationen von einer Internetseite verarbeiten, die utf8-codiert ist:

Code: (dl )
1
2
3
<?xml version="1.0" encoding="UTF-8" ?>
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.1//EN"
"http://www.w3.org/TR/xhtml11/DTD/xhtml11.dtd">


Ich hab also angefangen und einen LWP Post request gesendet um die Antwort dann mit HTML::Treebuilder zu verarbeiten:

Code: (dl )
1
2
3
4
5
6
7
8
use LWP::Simple;
use HTML::TreeBuilder;

# LWP Post request speichert Ergebnis in $response...
...

my $content = $response->content;
my $root = HTML::TreeBuilder->new_from_content($content);

leider bereitet mir dabei folgende Fehlermeldung Kopfschmerzen:

Parsing of undecoded UTF-8 will give garbage when decoding entities

Ich hab ehrlich gesagt keine Ahnung von Zeichen-Codierungen und stehe diesem Problem deshalb ziemlich hilflos gegenüber, ich weiß nicht mal welche andere Kodierung ich denn brauche.

Also offenbar mache ich irgendwas falsch... ich weiß nur nicht wo ^^ wäre euch daher für nen Tipp dankbar :)

Gruß, Nordlicht.
Last edited: 2011-11-09 06:40:38 +0100 (CET)

View full thread utf8 mit HTML::Treebuilder verarbeiten