Thread Benötige Perl-Skript zur Auswertung von .pdf-Dateien
(14 answers)
Opened by ClaudiaRohmeier at 2013-03-06 15:09
Da PDF eine Seitenlayoutsprache ist und keine Textauszeichnungssprache könnte es, je nach Struktur der vorliegenden PDF-Dateien, ziemlich problematisch werden, den Text so zu extrahieren, dass die logische Aufteilung in Absätze und Sätze erhalten bleibt. Erfahrungsgemäß liefern Werkzeuge wie pdf2text bisweilen nämlich nur Zeichensalat.
When C++ is your hammer, every problem looks like your thumb.
|