Thread LWP::Simple Problem (13 answers)
Opened by userforusing at 2014-02-25 14:25

userforusing
 2014-02-25 14:25
#173704 #173704
User since
2014-02-25
4 Artikel
BenutzerIn
[default_avatar]
Hallo PERL-Community,

ich bin Linguistik Student und mache mich erst seit kurzem mit PERL vertraut. Für eine Aufgabe versuche ich momentan Wikipedia Artikel mit Hilfe von PERL zu crawlen. Später sollen diese auf bestimmte Keywörter untersucht werden.

Ich habe es bereits geschafft, einen Artikel herunterzuladen und in eine Datei zu schreiben.
Code: (dl )
1
2
3
4
5
6
7
8
9
10
11
#!/usr/bin/perl 
use LWP::Simple;

my $ausgabe = "ausgabe.txt";
open (DATEI, ">ausgabe.txt") or die $!;

$url = "http://de.wikipedia.org/wiki/Perl_(Programmiersprache)";
$wiki = qx(curl $url);

print DATEI "$wiki";
close(DATEI);


Jetzt möchte ich aber nur den reinen Text bekommen, also ohne jegliche HTML oder XML Tags, ich habe versucht mit einem regulären Ausdruck zu arbeiten
Code: (dl )
unless ($_ =~ m/</) {}

Aber das hatte bisher keinen Effekt. Ich weiß nicht genau, wo ich den Ausdruck einsetzen muss.
Wo liegt das Problem, brauche ich hier noch eine while Schleife und muss ich den Text erst zeilenweise splitten und dann in einen Array geben?

Ich hoffe es ist verständlich was ich erreichen möchte und ihr könnt mir aushelfen.
Last edited: 2014-02-25 14:28:13 +0100 (CET)

View full thread LWP::Simple Problem