1
2
3
4
5
6
7
8
9
10
11
#!/usr/bin/perl
use LWP::Simple;
my $ausgabe = "ausgabe.txt";
open (DATEI, ">ausgabe.txt") or die $!;
$url = "http://de.wikipedia.org/wiki/Perl_(Programmiersprache)";
$wiki = qx(curl $url);
print DATEI "$wiki";
close(DATEI);
unless ($_ =~ m/</) {}
1 2 3 4 5 6 7 8 9 10 11 12 13 14
#!/usr/bin/perl use strict; use warnings; use LWP::Simple; my $ausgabe_datei = "ausgabe.txt"; my $url = "http://de.wikipedia.org/wiki/Perl_(Programmiersprache)"; open (my $fh, '>', $ausgabe_datei) or die( "ERROR OPEN $ausgabe_datei : $!" ); my $wiki=get($url); print $fh $wiki; close($fh);
$wiki=~s/<[^<>]+>//gs;
2014-02-25T14:43:39 kristianIch weiß ja nicht wo du hin willst, aber durchgerührter Brei aus Worten kann nicht das Ziel sein. (hoffe ich)
2014-02-25T17:46:23 hlubenowAllerdings: Bei der Seite "http://de.wikipedia.org/wiki/Perl_(Programmierspra..." habe ich ein Encoding-Problem, egal, ob ich sie mit curl oder mit LWP::Simple hereinhole. Da sind Zeichen, die weder in UTF-8, noch in Latin 1 Sinn ergben. Da haken dann auch Parser ...
open (my $fh, '>::encoding(UTF-8)', $ausgabe_datei)
Guest werMuss man auch als UTF-8 speichern
Quote"\x{00c2}" does not map to utf8 at ...
"\x{00bc}" does not map to utf8 at ...
"\x{00c2}" does not map to utf8 at ...
"\x{00a9}" does not map to utf8 at ...
"\x{00c3}" does not map to utf8 at ...
"\x{0091}" does not map to utf8 at ...
1
2
curl 'http://de.wikipedia.org/wiki/Perl_(Programmiersprache)' -o ausgabe.txt
recode UTF-8..ISO-8859-1 ausgabe.txt
Quoterecode: ausgabe.txt failed: Ungültige Eingabe in step `UTF-8..ISO-8859-1'
1
2
3
4
5
use Mojo::UserAgent;
my $ua = Mojo::UserAgent->new;
my $tx = $ua->get("http://de.wikipedia.org/wiki/Perl_(Programmiersprache)");
print $tx->res->dom->all_text;