Benötige Perl-Skript zur Auswertung von .pdf-Dateien (Projekte)

[thread]18187[/thread]

Benötige Perl-Skript zur Auswertung von .pdf-Dateien

Leser: 24

Articles: hide open all | hide show old branches

+15 replies
ClaudiaRohmeier

2013-03-06 15:09

User since
2013-03-06
2 Artikel
BenutzerIn

Liebe Perl-Community,

ich habe eine Frage etwas im Abseits. Ich muss zunächst vorausschicken, dass ich selbst keine Erfahrung mit der Programmierung in Perl besitze. Es geht um die Realisation eines Forschungsprojekts, für das ich ein Skript benötige, hinsichtlich dessen Realisierbarkeit ich wiederum zunächst die Einschätzung von erfahrenen Perl-Programmieren benötige.

Warum komme ich damit ausgerechnet hierher/Warum ausgerechnet Perl?
>>Ein methodisch ähnliches Forschungsvorhaben wurde bereits von anderen Wissenschaftlern durchgeführt. Im Paper wurde jedoch nur die Angabe gemacht, dass ein individuell angefertigtes Perl-Script zur Durchführung genutzt wurde. Da ich allgemein über eher begrenzte Erfahrungen im Bereich IT und im Speziellen im Bereich der Programmierung verfüge, mangelt es mir schlicht an alternativen Ideen zur Durchführung. Deshalb frage ich hier nach in der Hoffnung, dass mir evtl. (gerne auch mit Verweis auf andere Programmiersprachen/Programme/...) weitergeholfen werden kann.

Worum geht es/Was soll gemacht werden?
>> Bitte entschuldigt zunächst, dass ich über den Fachbereich und das Forschungsprojekt im Allgemeinen gerne eher nur wenige Informationen veröffentlichen möchte um zu verhindern, dass das Projekt ggf. von anderen vorweggenommen und veröffentlicht wird. Was grob getan werden soll ist Folgendes: Ich verfüge über etwa 300 .pdf-files (beinhalten überwiegend Text; OCR-Programm habe ich bereits drüber laufen lassen), die systematisch auf bestimmte Schlüsselbegriffe ausgewertet werden sollen. Das Script soll idealerweise die .pdf-files alle nach bestimmten Schlüsselbegriffen durchsuchen, anschließend (1) die Wortzahl des Absatzes bzw zumindest des gesamten Dokuments, (2) die Position der gefundenen Begriffe innerhalb des Dokuments (z.B. Seite und Wortzahl von Beginn des Dokuments an) und (3) den ganzen Satz, in dem einer der Schlüsselbegriffe auftaucht, gebündelt und strukturiert in einer Excel Datei ausgeben.

Daher zunächst meine Frage, für wie kompliziert Ihr die Umsetzung dieses Vorhabens in einem Perl-Skript haltet oder wie Ihr hier alternativ vorgehen würdet. Für jeden Hinweise bzw. Hilfe bin ich sehr dankbar.

Mit besten Grüßen

ClaudiaRohmeier
Last edited: 2013-03-06 15:15:38 +0100 (CET)
- +5 replies
- Muffi
  
  2013-03-06 15:30
  
  User since
  2012-07-18
  1465 Artikel
  BenutzerIn
  
  Die Sprache ist das wohl nicht das Entscheidenste.
  Die Frage ist eher: Wenn Perl, wer macht das dann?
  1 + 1 = 10
  - +4 replies
  - jan
    
    2013-03-06 15:59
    
    User since
    2003-08-04
    2536 Artikel
    ModeratorIn
    
    Ich schließe mich an, die PDF-Thematik sehe ich als gar nicht notwendig an, da gibt's ja pdf2html und pdf2text und so weiter, das läuft ja wunderbar.
    
    Also: machbar, mit Perl und ohne (aber natürlich wirst Du hier eher die Antworten bekommen, die es eher mit als ohne Perl machen würden).
    - +2 replies
    - murphy
      
      2013-03-06 17:11
      
      User since
      2004-07-19
      1776 Artikel
      HausmeisterIn
      
      Da PDF eine Seitenlayoutsprache ist und keine Textauszeichnungssprache könnte es, je nach Struktur der vorliegenden PDF-Dateien, ziemlich problematisch werden, den Text so zu extrahieren, dass die logische Aufteilung in Absätze und Sätze erhalten bleibt. Erfahrungsgemäß liefern Werkzeuge wie pdf2text bisweilen nämlich nur Zeichensalat.
      When C++ is your hammer, every problem looks like your thumb.
      - jan
        
        2013-03-06 17:15
        
        User since
        2003-08-04
        2536 Artikel
        ModeratorIn
        
        Naja, meiner Erfahrung nach arbeitet pdf2text ziemlich cool wenn es nicht gerade ein OCR zu PDF geprintetes Dokument lesen soll. pdf2html kann dann auch schön absolut positionierte Elemente anlegen, und so mit'm DOM find ich es immer leichter zu arbeiten als mit PDF.
    - bianca
      
      2013-03-06 18:40
      
      User since
      2009-09-13
      7016 Artikel
      BenutzerIn
      
      Hat jemand Erfahrung mit CAM::PDF?
      10 print "Hallo"
      20 goto 10
- Gast wer
  
  2013-03-06 16:14
  
  Ganz gerade heraus. Was bist du bereit dafür zu geben?
  
  Wenn du lange genug wartest findet sich sicher jemand der dir hier den Code postet.
  Last edited: 2013-03-06 16:25:05 +0100 (CET)
- murphy
  
  2013-03-06 17:19
  
  User since
  2004-07-19
  1776 Artikel
  HausmeisterIn
  
  Prinzipiell ist das ganze sicher in Perl umsetzbar.
  
  Die statistische Auswertung des Text ist dabei voraussichtlich leicht zu bewerkstelligen, wenn die Datenmenge pro Dokument deutlich unter der Größe des verfügbaren Arbeitsspeichers liegt.
  
  Die Datenausgabe in ein Format mit dem Tabellenkalkulationen etwas anfangen können dürfte sich ebenfalls unproblematisch gestalten.
  
  Ich sehe vor allen Dingen Probleme bei der Zerlegung der PDF-Dateien in logische Textbausteine. PDF ist mehr ein Grafikformat als eine Textauszeichnungssprache. So kann es zum Beispiel sein, dass in einer PDF-Datei Buchstaben einzeln auf der Seite positioniert werden und sich zwar optisch ein Text ergibt, die Anordnung der Buchstaben in der Datei jedoch überhaupt keinen Sinn macht. In solchen Situationen wäre die Rekonstruktion des Textinhaltes nicht trivial zu bewerkstelligen.
  When C++ is your hammer, every problem looks like your thumb.
- +3 replies
- bianca
  
  2013-03-06 18:36
  
  User since
  2009-09-13
  7016 Artikel
  BenutzerIn
  
  Soll das Script Doktorarbeiten auf Zitate absuchen?
  10 print "Hallo"
  20 goto 10
  - +2 replies
  - jan
    
    2013-03-06 18:41
    
    User since
    2003-08-04
    2536 Artikel
    ModeratorIn
    
    "crowdsourced" man sowas heute nicht indem man das einfach bei *plag.* postet und die gelangweilten Jäger dort die Arbeit machen lässt?
    
    Nebenbei ein Feature-Request: verzögerte Antwort. Ich komme hier nichts böses denkend meines Weges, sehe einen Post und antworte darauf und das mehrmals innerhalb von wenigen Minuten. Das wirkt ja beinahe Stalker-artig. Will ich aber gar nicht, so wirken. Also bitte als Feature: "Erst posten, wenn der nächste User den Thread aufruft" oder alternativ mit einem Hinweis "Der Benutzer hat ein überaus aktives Sozialleben, bitte achten Sie nicht auf die Post-Zeit" ;)
    - bianca
      
      2013-03-06 19:18
      
      User since
      2009-09-13
      7016 Artikel
      BenutzerIn
      
      2013-03-06T17:41:03 jan
      "crowdsourced" man sowas heute nicht indem man das einfach bei *plag.* postet und die gelangweilten Jäger dort die Arbeit machen lässt?
      
      Jo, wahrscheinlich.
      Es wird davon abhängen, wie gut man die Texte aus den PDF's raus bekommt und dafür wird man vermutlich mehrere Lösungen ausprobieren müssen. Möglicherweise sind die Dokumente auch stark unterschiedlich, sodass man jedes PDF durch jede Lösung laufen lassen muss, um das beste Ergebnis zu erhalten.
      
      2013-03-06T17:41:03 jan
      Nebenbei ein Feature-Request: verzögerte Antwort. Ich komme hier nichts böses denkend meines Weges, sehe einen Post und antworte darauf und das mehrmals innerhalb von wenigen Minuten. Das wirkt ja beinahe Stalker-artig. Will ich aber gar nicht, so wirken. Also bitte als Feature: "Erst posten, wenn der nächste User den Thread aufruft" oder alternativ mit einem Hinweis "Der Benutzer hat ein überaus aktives Sozialleben, bitte achten Sie nicht auf die Post-Zeit" ;)
      
      ???
      Das habe zumindest ich nicht verstanden. Was meinst du genau?
      10 print "Hallo"
      20 goto 10
- +2 replies
- ClaudiaRohmeier
  
  2013-03-11 14:16
  
  User since
  2013-03-06
  2 Artikel
  BenutzerIn
  
  Vielen Dank für dei vielen Antworten und Entschuldigung für die späte Rückmeldung (war übers Wochenende unterwegs).
  
  Zum Thema: Ich hatte ehrlich gesagt gehofft, dass es für sowas schon fertige Scripte gibt, die man sich dann mit etwas Einarbeiten selbst zusammenfrickeln bzw. anpassen kann. Ist diese Annahme völlig vermessen? Wenn ja sagt es bitte gleich, bevor ich weiter rumsuche. Falls ich dafür professionelle Hilfe in Anspruch werde nehmen müssen, waere das für einen routinierten Programmierer sehr aufwendig bzw. wo könnte man solche Projekte zu welchem Preis in Auftrag geben (natürlich nur subjektive Schätzungen eurerseits)?
  
  Es geht im Übrigen nicht um die Auswertung von Doktorarbeitern o.Ä. Sollte es auf "automatisiertem" Wege nicht oder nur unter unverhältnismäßigem Aufwand funktionieren, würde vermutlich eine Hilfskraft damit beauftragt werden, die die Auswertung auf "manuellem" Wege leistet, was natuerlich nervig und eben zeitaufwendig ist. Insofern geht es hier vor allem um die Frage, ob es mit Software nicht schneller und effizienter umzusetzen wäre. Sollte ich dafür aber im übertragenden Sinne Welten in Bewegung setzen müssen, würde ich vermutlich auf die Alternative zurückgreifen.
  
  Ich hatte ehrlich gesagt sogar gehofft, dass es bereits Software gibt, die die systematische Auswertung von Textendateien leistet und die man entweder kostenlos oder eben gegen geringes Entgelt erwerben kann. Ich habe schon über Google gesucht, allerdings ohne Erfolg. Vllt suche ich auch nach den falschen Begriffen. Ist in diese Richtung niemandem was bekannt?
  - Muffi
    
    2013-03-11 15:30
    
    User since
    2012-07-18
    1465 Artikel
    BenutzerIn
    
    Es wird also nach jemandem gesucht, der einige .pdf-Files hat, die nach bestimmten Schlüsselwörtern durchsuchen und auswerten will und das Ergebnis in Excel sehen will.
    Darüber hinaus soll ers am besten noch als öffentliches Perlmodul geschrieben haben.
    Vielleicht gibts den Menschen, ich würd aber mal tippen, dass man mit selber schreiben schneller als mit suchen ist.
    1 + 1 = 10
- +2 replies
- murphy
  
  2013-03-11 19:28
  User since
  2004-07-19
  1776 Artikel
  HausmeisterIn
  Hier mal ein kleines Skript zum Herumprobieren oder darauf Aufbauen:
  
  Code (perl): (dl )
  
  1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199
  
  #!/usr/bin/perl use 5.012; use warnings; use Getopt::Long; use Pod::Usage; use Text::CSV; my $out; my $verb = 1; my $help = 0; GetOptions( 'output|o=s' => \$out, 'verbose|v+' => \$verb, 'help|h|?' => \$help, ) or pod2usage(-exitstatus => 2); if ($help) { pod2usage(-exitstatus => 0, -verbose => $verb); } my ($key, $doc) = @ARGV; unless (defined $key and defined $doc) { pod2usage(-exitstatus => 2); } unless (defined $out) { $out = $doc =~ s/(?:\.[^.]+)?$/.csv/r; } $|++ if ($verb > 1); say "Reading keywords from '$key' ..." if ($verb > 2); my @keywords = do { open my $in, '<', $key or die "Error opening keyword file: $!"; my %unique; while (my $_ = <$in>) { chomp; for my $keyword (split /[\s.:!?,;()]+/) { $unique{$keyword} = 1; } } keys %unique; }; say scalar(@keywords), " keywords read" if ($verb > 1); say "Scanning document '$doc', writing output to '$out' ..." if ($verb > 2); my $ispdf = do { open my $in, '<', $doc or die "Error opening document file: $!"; read $in, my $magic, 4; $magic eq '%PDF'; }; my $src; if ($ispdf) { say "Document seems to be a PDF file" if ($verb > 2); open $src, '-|', 'pdftotext', $doc, '-' or die "Error opening document stream: $!"; } else { say "Document does not seem to be a PDF file" if ($verb > 2); open $src, '<', $doc or die "Error opening document file: $!"; } open my $tgt, '>', $out or die "Error opening output file: $!"; my $csv = Text::CSV->new({binary => 1, eol => $/}); $csv->print($tgt, [qw(Page Word Keyword Sentence)]); my $page = 0; my $word = 0; my $sentence = ''; my @hits = (); my $total = 0; while (my $_ = <$src>) { chomp; while ($_ ne '') { if (s/^\f//) { $page += 1; $word = 0; } elsif (s/^([^\s.:!?,;()]+)//) { my $candidate = $1; for my $keyword (@keywords) { if ($candidate eq $keyword) { print "$page,$word ... " if ($verb > 2); push @hits, [$page, $word, $keyword]; } } $sentence .= ' ' if ($sentence ne ''); $sentence .= $candidate; $word += 1; } elsif (s/^([.:!?,;()])//) { $sentence .= $1; for my $hit (@hits) { push @$hit, $sentence; $csv->print($tgt, $hit); } $total += @hits; $sentence = ''; @hits = (); } else { s/^\s+//; } } } say "Done" if ($verb > 2); say "$total matches found" if ($verb > 1); close $src or die "Failed to close document stream: $!"; close $tgt or die "Failed to close output stream: $!"; __END__ =head1 NAME keywords - Find keywords in PDF or text files =head1 SYNOPSIS keywords [OPTION ...] KEYWORDS DOCUMENT =head1 OPTIONS =over 4 =item B<--output=FILE> =item B<-o FILE> Write output to the given file. If no such option is given, the output filename is constructed by replacing the extension of the input document by C<.csv>. =item B<--verbose> =item B<-v> Increases the verbosity of program output. Up to two instances of this option currently make sense. =item B<--help> =item B<-h> =item B<-?> Shows documentation about the program. Combine with B<--verbose> to view the entire manual page. =back =head1 DESCRIPTION This program reads a list of keywords from a file and scans another file for occurrences of those keywords. Both the keyword and document file are split into words separated by whitespace or any of the sentence separator characters C<.:!?,;()>. If the document file is not plain text but a PDF file, it is automatically filtered through the program C<pdftotext> and the output is scanned instead. While scanning the document, each occurrence of a keyword is printed to the output in CSV format. The fields printed are =over 4 =item the current page number, determined by counting form feeds; =item the number of the word counting from the start of the page; =item the matched keyword and =item the sentence in which the keyword occurred. =back =head1 LICENSE Copyright (c) 2013 by Thomas Chust L<mailto:chust@web.de> This program is free software: you can redistribute it and/or modify it under the terms of the GNU General Public License as published by the Free Software Foundation, either version 3 of the License, or (at your option) any later version. This program is distributed in the hope that it will be useful, but WITHOUT ANY WARRANTY; without even the implied warranty of MERCHANTABILITY or FITNESS FOR A PARTICULAR PURPOSE. See the GNU General Public License for more details. You should have received a copy of the GNU General Public License along with this program. If not, see <http://www.gnu.org/licenses/>. =cut
  
  When C++ is your hammer, every problem looks like your thumb.
  - Kuerbis
    
    2013-03-12 07:47
    
    User since
    2011-03-20
    955 Artikel
    BenutzerIn
    
    Vielleicht könnte man dabei Text::FromAny verwenden.

View all threads created 2013-03-06 15:09.