Hoi!
Ich will/muss PDFs unter Windows indexieren. Auf der Suche nach geeigneten Modulen bin ich auf 2 vielversprechende gestossen: CAM::PDF und PDF::API2.
CAM::PDF lässt sich zur Zeit nicht über den PPM installieren, da Crypt::RC4 nicht als PPD verfügbar ist. Auch nachdem ich Crypt::RC4 vom CPAN geladen und installiert habe lässt es sich nicht über den PPM installieren. Installation der CPAN-Version von CAM-PDF scheitert weil 1 Test nicht durchläuft. Leider verrät er mir nicht welcher (und nervt zu Tode weil die PDF-Binärdaten auf STDOUT ausgegeben werden)...
Also hab ich dann PDF::API2 installiert. Laut Aussage des Autors im POD von CAM::PDF soll es ja auch derzeit das beste PDF-Modul sein...
Leider ist das Wiki unter
http://pdfapi2.sourceforge.net/twiki/ nicht mehr existent und archive.org hat keinen Mirror davon. Alle anderen Beispiele und Dokumentation die ich bisher gefunden habe ist darauf ausgelegt ein neues PDF zu erzeugen.
Aus der spärlichen Doku hab ich mir nun zusammengepuzzelt wie ich auf das Textobjekt komme, aber danach geht's nicht weiter...
use PDF::API2;
my $pdf = PDF::API2->open('test.pdf');
my $page = $pdf->openpage(1);
my $txt = $page->text;
my $str = $txt->??????? # was jetzt?
$pdf->end;
$pdf->stringify() macht auch nicht das Gewünschte, sondern gibt das gesammte PDF als Binärstring zurück, damit man's ausgeben oder in eine Datei schreiben kann.
Irgendwie weiss ich grad nicht weiter, ausser pdf2text von XPDF als externes Programm aufzurufen.