Thread regexp: Links erkennen (2 answers)
Opened by Nordlicht at 2008-02-10 19:52

moritz
 2008-02-10 21:04
#105775 #105775
User since
2007-05-11
923 Artikel
HausmeisterIn
[Homepage]
user image
Ich habe gute Erfahrungen mit Regexp::Common::URI (CPAN:Regexp::Common) gemacht.

Um Links inklusive optionaler Anker zu finden, verwende ich in meinen IRC-Logs folgende Regex:
Code (perl): (dl )
m/$RE{URI}{HTTP}(?:#[\w_%:-]+)?(?<![.,])/

Der letzte Teil sorgt dafür, dass Punkt und Komma, die am Ende einer URL stehen, nicht zur URL gezählt werden. Gültige URLs können das zwar enthalten, im Normalfall ist es aber nicht gewollt.

Für https und ftp kann man sich dann was ähnliches stricken.

View full thread regexp: Links erkennen