Thread HTML-Seite parsen
(14 answers)
Opened by pktm at 2009-10-12 12:21 Quote Selbst dann würde ich keine Regex schreibe da es schnell zu komplex werden kann, und die Module da einiges an Arbeit sparen können. Zum anderen woher soll man Wissen das das "Format" imemr gleich bleibt? Selbst wenn man die Seite selber geschrieben hat kann man nicht wissen ob man sie in der Zukunft doch ändert. Quote Jaein. Nur zum Auslesen muss ein Parser nicht schauen ob das Dokument auch Valide ist. Sprich ob Tags korrekt verschachtelt sind wie erlaubt etc. Sowas kann man zum auslesen auch ignorieren da man ja nicht die Validität überprüfen will. Ansonsten ist es nicht so das man bei XML diesen prozess nicht hat. Bei XMLs gibt es ebenso DTDs die ein Regelsatz für XML beschreibt. Bei XML Dokumenten kann man von "Wohlgeformt" sprechen wenn die Syntax korrekt ist. Das bedeutet aber nicht das XML deswegen automatisch Valide ist. XHTML z.B. baut auf XML auf und begrenzt ebenso wie HTML Tags und Attribute die bestimmte Tags haben dürfen etc. Wenn man Daten lediglich auslesen möchte dann brauch man nur "Wohlgeformte" Dokumente, im seltensten Fall wird man gleich prüfen ob das Dokument überhaupt Valide ist. Nicht mehr aktiv. Bei Kontakt: ICQ: 404181669 E-Mail: perl@david-raab.de
|