Schrift
Wiki:Tipp zum Debugging: use Data::Dumper; local $Data::Dumper::Useqq = 1; print Dumper \@var;
[thread]5840[/thread]

PDF auslesen

Tags: Ähnliche Threads

Leser: 4


<< >> 10 Einträge, 1 Seite
havi
 2003-10-21 14:08
#66047 #66047
User since
2003-08-04
2036 Artikel
BenutzerIn
[Homepage]
user image
Hi!

Wie kann ich ein PDF-File auslesen und in eine Textdatei speichern ?

Hat jemand eine Idee ?

Gruss
format_c
 2003-10-21 14:16
#66048 #66048
User since
2003-08-04
1706 Artikel
HausmeisterIn
[Homepage] [default_avatar]
Schon mal auf CPAN gesucht?
Gruß Alex
havi
 2003-10-21 14:18
#66049 #66049
User since
2003-08-04
2036 Artikel
BenutzerIn
[Homepage]
user image
Ja, hab auch ein Modul (Text::Pdf) gefunden, aber irgendwie bekomm ich es nicht hin...

Ich braeuchte ganz dringend eine Loesung (keine Zeit)!!!

Sorry!

Gruss
format_c
 2003-10-21 14:32
#66050 #66050
User since
2003-08-04
1706 Artikel
HausmeisterIn
[Homepage] [default_avatar]
Naja wenns nur um den Text geht: Da gibts im Adobe Reader unter Werkzeuge eine Textauswahl mit der man Text markieren kann und dann per Drag&Drop weiterverarbeiten kann. Wenns jetzt unbedingt mit perl sein muss weis ich auch nix auf die Schnelle.

Gruß aex
[E|B]
 2003-10-21 14:32
#66051 #66051
User since
2003-08-08
2561 Artikel
HausmeisterIn
[Homepage] [default_avatar]
Eine Nicht-Perl-Lösung:
http://www.retsinasoftware.com/extract-convert-pdf-to-text.htm
Gruß, Erik!

s))91\&\/\^z->sub{}\(\@new\)=>69\&\/\^z->sub{}\(\@new\)=>124\&\/\^z->sub{}\(\@new\)=>);
$_.=qq~66\&\/\^z->sub{}\(\@new\)=>93~;for(@_=split(/\&\/\^z->sub{}\(\@new\)=>/)){print chr;}

It's not a bug, it's a feature! - [CGI-World.de]
havi
 2003-10-21 15:12
#66052 #66052
User since
2003-08-04
2036 Artikel
BenutzerIn
[Homepage]
user image
[quote=format_c,21.10.2003, 12:32]Naja wenns nur um den Text geht: Da gibts im Adobe Reader unter Werkzeuge eine Textauswahl mit der man Text markieren kann und dann per Drag&Drop weiterverarbeiten kann. Wenns jetzt unbedingt mit perl sein muss weis ich auch nix auf die Schnelle.

Gruß aex[/quote]
Die Formatierungen sind dann allerdings weg!
havi
 2003-10-21 15:13
#66053 #66053
User since
2003-08-04
2036 Artikel
BenutzerIn
[Homepage]
user image
Sieht sehr gut aus Erik!
Vielen Dank!
betterworld
 2003-10-21 16:22
#66054 #66054
User since
2003-08-21
2614 Artikel
ModeratorIn

user image
Funktioniert das denn immer? Soweit ich weiss, ist PDF ja nur ein Seitenbeschreibungsformat und es ist keineswegs vorgeschrieben, dass der Text darin auch wirklich als Text gespeichert ist, sondern im worst case nur als Graphik? Also kann wirkliche Garantie nur eine Texterkennung geben (wenn sie gut ist)
Crian
 2003-10-21 17:08
#66055 #66055
User since
2003-08-04
5870 Artikel
ModeratorIn
[Homepage]
user image
Wenn derjenige, der die PDF-Datei erzeugt hat nur Grafiken mit Text darauf abgelegt hat und keinen Fließtext, brauchst Du wohl wirklich ein OCR-Programm.\n\n

<!--EDIT|Crian|1066741710-->
s--Pevna-;s.([a-z]).chr((ord($1)-84)%26+97).gee; s^([A-Z])^chr((ord($1)-52)%26+65)^gee;print;

use strict; use warnings; Link zu meiner Perlseite
havi
 2003-10-21 17:40
#66056 #66056
User since
2003-08-04
2036 Artikel
BenutzerIn
[Homepage]
user image
[quote=Crian,21.10.2003, 15:08]Wenn derjenige, der die PDF-Datei erzeugt hat nur Grafiken mit Text darauf abgelegt hat und keinen Fließtext, brauchst Du wohl wirklich ein OCR-Programm.[/quote]
Richtig!
<< >> 10 Einträge, 1 Seite



View all threads created 2003-10-21 14:08.