Thread Suche Modul PDF -> HTML
(4 answers)
Opened by kristian at 2010-07-19 13:17
Ich habe mich schon mit so was (bei Postscript) beschäftigt und kann sagen, das es nur sehr spezifisch zu lösen ist. Z.B für die Erkennung von Tabellen habe ich fast eine Woche aufgewendet und sie funktionierte nur sehr spezifisch auf die zu bearbeitenden Dokumente. PDF (sowie PS) sind Postitionsorientierte Formate, die kaum noch Inhaltliche Formatierungen enthalten. Daraus HTML oder andere Dokumente mit komplexen Metainformationen zum Dokumentinhalt zu machen ist sehr schwierig.
|