Thread regexp: Links erkennen
(2 answers)
Opened by Nordlicht at 2008-02-10 19:52
Ich habe gute Erfahrungen mit Regexp::Common::URI (Regexp::Common) gemacht.
Um Links inklusive optionaler Anker zu finden, verwende ich in meinen IRC-Logs folgende Regex: Code (perl): (dl
)
m/$RE{URI}{HTTP}(?:#[\w_%:-]+)?(?<![.,])/
Der letzte Teil sorgt dafür, dass Punkt und Komma, die am Ende einer URL stehen, nicht zur URL gezählt werden. Gültige URLs können das zwar enthalten, im Normalfall ist es aber nicht gewollt. Für https und ftp kann man sich dann was ähnliches stricken. |