Thread Perl, RegExp & HTML
(10 answers)
Opened by Equipaas at 2016-11-29 07:59
In solchen Fällen empfiehlt es sich (fast) immer ein passendes CPAN-Modul zu nehmen, dass das Eingabeformat parst und in eine leicht zugängliche Datenstruktur verwandelt. Bei HTML habe ich da in der Vergangenheit mit HTML::TreeBuilder immer gute Erfahrungen gemacht.
HTML::TreeBuilder setzt auf HTML::Parser auf, d.h. Du bekommst einen ausgereiften Parser, der auch Sonderfälle etc. abdeckt. Wenn du da mit Regex selbst etwas hackst, ist das viel unnütze Arbeit und Du fliegst schnell auf die Schnauze. Auch bei der Ausgabe kann ein Module von CPAN hilfreich sein, um z.B. das Escapen der Strings im CSV zu übernehmen. (Was machst Du z.B. wenn Du ein Komma als Separator verwendest und ein Unternehmen plötzlich "Hinz, Kunz & Cie." heißt?) Meist ist es bei der Ausgabe aber nicht ganz so essentiell wie bei der Eingabe, da man hier die Ausnahmen besser im Griff hat. Ein konkretes Modul für die CSV-Ausgabe kann ich Dir nicht nennen, weil mir hier die Erfahrung fehlt. |