Ich habe auch schon mit PDFs zu tun gehabt und in CPAN nicht so richtig was gutes gefunden, aber bei
XPDF
gibt es freie Tools u.a. zum Auslesen von Text aus PDF-Dateien (pdftotext).
Das funktioniert ziemlich gut - jedenfalls wenn beim Erstellen der PDF-Datei nicht die Schriften vektorisiert wurden (dabei werden alle Buchstaben nicht mehr als Zeichen in einer Schrift, sondern als Vektorgrafik ins PDF eingebettet).
pdftotext muß man halt dann von perl per system() oder Backticks aufrufen.