Thread HTML-Seite parsen (14 answers)
Opened by pktm at 2009-10-12 12:21

sid burn
 2009-10-12 15:10
#126901 #126901
User since
2006-03-29
1520 Artikel
BenutzerIn

user image
Quote
Wenn es sich um eine Seite handelt, die Immer gleich aufgebaut ist, und du sicher bist, dass sich das "Format" nicht ändert, und das herauslesen der Daten schnell gehen muss oder du einfache Datentypen nur einmalig lesen willst, dann könnte man darüber nachdenke einen passenden Regulären Ausdruck zu schreiben.

Selbst dann würde ich keine Regex schreibe da es schnell zu komplex werden kann, und die Module da einiges an Arbeit sparen können. Zum anderen woher soll man Wissen das das "Format" imemr gleich bleibt? Selbst wenn man die Seite selber geschrieben hat kann man nicht wissen ob man sie in der Zukunft doch ändert.

Quote
Anders als XML ist HTML generisch kaum zu parsen, der Parser muss alle Tags kennen und wissen was sie erlauben und was nicht.

Jaein.
Nur zum Auslesen muss ein Parser nicht schauen ob das Dokument auch Valide ist. Sprich ob Tags korrekt verschachtelt sind wie erlaubt etc. Sowas kann man zum auslesen auch ignorieren da man ja nicht die Validität überprüfen will.

Ansonsten ist es nicht so das man bei XML diesen prozess nicht hat. Bei XMLs gibt es ebenso DTDs die ein Regelsatz für XML beschreibt. Bei XML Dokumenten kann man von "Wohlgeformt" sprechen wenn die Syntax korrekt ist. Das bedeutet aber nicht das XML deswegen automatisch Valide ist. XHTML z.B. baut auf XML auf und begrenzt ebenso wie HTML Tags und Attribute die bestimmte Tags haben dürfen etc.

Wenn man Daten lediglich auslesen möchte dann brauch man nur "Wohlgeformte" Dokumente, im seltensten Fall wird man gleich prüfen ob das Dokument überhaupt Valide ist.
Nicht mehr aktiv. Bei Kontakt: ICQ: 404181669 E-Mail: perl@david-raab.de

View full thread HTML-Seite parsen