Thread Unicode, WWW::Mechanize und Unicode::String (3 answers)
Opened by J-jayz-Z at 2006-10-06 13:45

J-jayz-Z
 2006-10-07 18:43
#70564 #70564
User since
2005-04-13
625 Artikel
BenutzerIn
[Homepage] [default_avatar]
Das ging auch nicht. Ich hab das Problem jetzt aber gelöst, indem ich den Crawler in Java geschrieben habe. Das Problem war einfach nur, die fehlende Funktionalität das charset selbst anzugeben. Auf der Seite fehlt der meta Tag, in dem man das auszuliefernde charset angibt, daran orientiert sich WWW::Mechanize. Wenn es keins gibt, wird einfach utf-8 verwendet. Also gingen die Umlaute schon kaputt, bevor ich sie überhaupt versuchte umzuwandeln. In Java kann man als 2tes Argument der Klasse InputStreamReader den charset angeben. Nachdem ich da iso-8859-1 angegeben hatte, ging es.

Leider musste ich auf Java umsteigen, da ich auf die Schnelle keine Möglichkeit gefunden hatte, den charset zu ändern in WWW::Mechanize - und der Kunde wollte es schnell haben. Mich würde trotzdem interessieren, ob da jemand eine Möglichkeit kennt ?
perl -Mstrict -Mwarnings -e 'package blub; sub new { bless {} } sub bar {my $self=shift; $self->{bla}="5065726c2d436f6d6d756e697479"; return $self->{bla};} my $foo=blub->new();print "Hallo ";print pack("H*",$foo->bar()); print "\n"'

http://perl-tutor.de

View full thread Unicode, WWW::Mechanize und Unicode::String