Thread RegExp - HTML Detection (9 answers)
Opened by Gast at 2005-11-14 02:14

theli
 2005-11-14 12:05
#60103 #60103
User since
2005-11-14
2 Artikel
BenutzerIn
[default_avatar]
Danke für eure Hilfe.
Code: (dl )
^(?is)\s*(<!--(?:(?!-->).)+-->)*\s*<\!DOCTYPE\s*HTML.*$/
hat zum Erfolg geführt.

Quote
Wieso hast Du nur die RegExes zur Verfuegung und kein Perl??

Ich verwende für das YaCy Projekt zur MimeType-Erkennung die jMimeMagic Library die ein Ruleset mit Regeln zur Erkennung von gängigen Dateiformaten enthält.
Leider sind diese Regeln nicht sehr ausgereift weshalb ich eigene schreiben wollte um die Erkennung zuverlässiger zu machen.
Perl kann ich nicht verwenden da diese Lib in Java Programmiert ist, aber immerhin Perl 5 Regular Expression unterstützt.

@sesth:
Als Definition für ein gültiges HTML-Dokument reicht mir erst mal der DOCTYPE. Ich möchte dir Regel dann aber nach und nach verfeinern um "problematische" html Seiten auch damit matchen zu können.

View full thread RegExp - HTML Detection