Thread CAM::PDF: Auslesen von Textinhalten aus OpenOffice-PDF (4 answers)
Opened by AndiE at 2010-12-24 19:49

AndiE
 2010-12-30 18:49
#143891 #143891
User since
2010-10-24
65 Artikel
BenutzerIn
[default_avatar]
Hallo,

danke für die interessanten Antworten. Ich habe "CAM::PDF" heruntergeladen und dabei wurden in "/usr/bin" einige Beispieldateien abgelegt. Nachdem ich etwas mir "getpdftext.pl" rumgespielt habe, habe ich nun "rewritepdf.pl" gesehen. Wenn ich diese Datei mit der Option "-d" aufrufe, kann ich die "Charmap" erkennen, mit der die Buchstaben der Textstrings ersetzt werden. Diese ist aufgebaut als:
Code: (dl )
1
2
3
 
01 004b
02 004b


Die Textstrings enthalten dann, z.B.:
Code: (dl )
[<01><02>]Tj


Soweit so gut. Nun müsste ich beides auslesen und miteinander verknüpfen. Aber das erscheint mir doch ein großes Stück Arbeit zu werden.

Guten Rutsch
Andre'

View full thread CAM::PDF: Auslesen von Textinhalten aus OpenOffice-PDF