Thread CAM::PDF: Auslesen von Textinhalten aus OpenOffice-PDF (4 answers)
Opened by AndiE at 2010-12-24 19:49

leo11
 2010-12-27 20:17
#143845 #143845
User since
2008-08-14
250 Artikel
BenutzerIn
[default_avatar]
2010-12-27T18:49:56 AndiE
Hallo,

ist doch schön, seine eigene Frage zu beantworten :-). Die Antwort lautete "Nein, das geht nicht."

Der Grund dafür ist, dass OpenOffice ein XML-Format nutzt. Wenn man eine odt-Datei mit unzip entpackt erhält man diese Dateien. Nach wikipedia wird aus solchen "xml"-Dateien über eine "xsl-fo" eine "pdf"-Datei. Die Rückübertragung müsste also den umgelehrten Weg gehen.

Entweder über xml::XPath oder über xml::xslt.
Kennt sich jemand evtl damit aus?

Schöne Grüße

Andre'

Pdf's sind ncht dafür gemacht zurückkonvertiert zu werden. Du kannst zwar mit Tools wie pdftotext oder pdf2ascii den Text extrahieren, jedoch verlierst du jedwede Formatierung.

View full thread CAM::PDF: Auslesen von Textinhalten aus OpenOffice-PDF