Benötige Perl-Skript zur Auswertung von .pdf-Dateien - #166252 (Projekte)

murphy

2013-03-06 17:19

User since
2004-07-19
1776 Artikel
HausmeisterIn

Prinzipiell ist das ganze sicher in Perl umsetzbar.

Die statistische Auswertung des Text ist dabei voraussichtlich leicht zu bewerkstelligen, wenn die Datenmenge pro Dokument deutlich unter der Größe des verfügbaren Arbeitsspeichers liegt.

Die Datenausgabe in ein Format mit dem Tabellenkalkulationen etwas anfangen können dürfte sich ebenfalls unproblematisch gestalten.

Ich sehe vor allen Dingen Probleme bei der Zerlegung der PDF-Dateien in logische Textbausteine. PDF ist mehr ein Grafikformat als eine Textauszeichnungssprache. So kann es zum Beispiel sein, dass in einer PDF-Datei Buchstaben einzeln auf der Seite positioniert werden und sich zwar optisch ein Text ergibt, die Anordnung der Buchstaben in der Datei jedoch überhaupt keinen Sinn macht. In solchen Situationen wäre die Rekonstruktion des Textinhaltes nicht trivial zu bewerkstelligen.

When C++ is your hammer, every problem looks like your thumb.