Optimierung eines Programms (Allgemeines zu Perl)

[thread]19424[/thread]

Optimierung eines Programms

Tags: perl5 Ähnliche Threads

Leser: 21

Articles: hide open all | hide show old branches

+36 replies
Gast Jan

2014-12-19 09:34
Hallo zusammen,

ein Kollege hat mir einst ein kleinen Perl-Programm programmiert. Dieses kopiert den Text aus mehreren Dateien zusammen in eine. Dabei werden jeweils die ersten Zeilen ausgelassen, da hier der Datenheader steht. Das Programm funktioniert soweit wie es soll, ist aber recht langsam. Könnt ihr mir sagen, wie das Programm zu verbessern wäre. Ich selbst habe jedoch nur wenig Ahnung von Perl, daher wären vorallem konkrete Hinweise hilfreich!

Besten Dank!

Im folgenden Programm habe ich die Pfade gekürzt
Code: (dl )

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51

#N:\...\Auswertung $input_directory = "C:\\Answ...TI\\"; $output_directory = "N:\\e...ertung\\"; $output_filename = "ergebnisse.txt"; @input_filenames = ( '2ds.VD', '2ds-csp.VD', '2ds-cspswh.VD', '2ds-swh.VD', '4ds.VD', '4ds-csp.VD', '6ds.VD', '6ds-csp.VD', ); # prepare output file open OUTFILE, ">", $output_directory.$output_filename or die "Cannot open FILE $output_filename in $output_directory.\n"; # foreach input file, open it, and process foreach $file (@input_filenames) { # Get the scenario ID, ie. the first part of the filename up to the . $scenario_id = $file; $scenario_id =~ s/\..+//; print "# Szenario_ID: $scenario_id\n"; open INFILE, "<", $input_directory.$file or die "Cannot open INFILE $file in $input_directory.\n";; $cnt = 0; $line = <INFILE>; chomp $line; while ($line = <INFILE>) { if ($line =~ m/^\*/) { $cnt++; next; } if ($line =~ m/^\s+/) { $cnt++; next; } print OUTFILE "\"$scenario_id\",".$line; } close INFILE; } # close output file close OUTFILE;
Last edited: 2014-12-19 09:48:40 +0100 (CET)
- +9 replies
- GwenDragon
  
  2014-12-19 10:01
  
  User since
  2005-01-17
  14848 Artikel
  Admin1
  
  Was bedeutet denn langsam in deinem Zusammenhang? Um welche Datenmengen bei Dateien geht es?
  die Drachin Gwen
  
  Meine Perl-Artikel · perldev – verschiedene Perl-Versionen unter Windows starten
  - +8 replies
  - Gast Jan
    
    2014-12-19 10:07
    
    Hallo! Danke für deine Antwort.
    
    Die Dateien die zusammengeschrieben werden sind im Prinzip unformatierte Textdateien. Größe und Anzahl ist unterschiedlich, jedoch kann durchaus 1GB oder mehr zusammenkommen. Das dauert dann ca. 15 min.
    
    So wie ich es versteht kopiert das Programm ja Zeile für Zeile. Vielleicht gibt es hier einen Optimierungsansatz?
    Last edited: 2014-12-19 10:37:58 +0100 (CET)
    - +6 replies
    - rosti
      
      2014-12-19 10:50
      
      User since
      2011-03-19
      3617 Artikel
      BenutzerIn
      
      Ja, die Zerlegung in Zeilen kostet CPU. Wenn Du jedoch weißt, wieviele (wenige) Zeilen am Anfang übersprungen werden müssen, kannst Du den Offset feststellen (tell();) und dann die verbleibende Bytesequenz von einem Handler in den anderen kopieren ohne das weiterhin in Zeilen zerlegen zu müssen. Das dürfte deutlich schneller werden.
      http://blog.rolfrost.de/
      
      The art of steam.
      - +3 replies
      - payx
        
        2014-12-19 10:53
        
        User since
        2006-05-04
        564 Artikel
        BenutzerIn
        
        2014-12-19T09:50:58 rosti
        ... Wenn Du jedoch weißt, wieviele (wenige) Zeilen am Anfang übersprungen werden müssen, ...
        
        Das weiß ich zufällig: Eine Zeile. Das von OP gepostete Script nimmt die erste Zeile, chompt sie und verwirft sie dann.
        Last edited: 2014-12-19 10:59:30 +0100 (CET)
        
        +2 replies
        
        rosti
        
        2014-12-19 11:05
        
        User since
        2011-03-19
        3617 Artikel
        BenutzerIn
        
        Code (perl): (dl )
        
        1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26
        
        use strict; use warnings; use IO::File; my @files = qw(adressen.txt); my $fh_in = IO::File->new; # Ergebnis Datei my $fh_out = IO::File->new; $fh_out->open('result.txt', O_CREAT|O_RDWR) or die "IO-Error: $!"; foreach my $file(@files){ $fh_in->open($file, 'r') or die $!; my $fstline = <$fh_in>; # first line skip my $offset = $fh_in->tell; # brauchen wir das?, Nö # Rest der Datei von $fh_in nach $fh_out while( read( $fh_in, my $buffer, 1024 ) ){ $fh_out->print($buffer); } $fh_in->close; } $fh_out->close;
        
        PS: Die Pfade da sind noch reinzuschmacken :)
        Last edited: 2014-12-19 11:08:06 +0100 (CET)
        http://blog.rolfrost.de/
        
        The art of steam.
        
        payx
        
        2014-12-19 11:13
        
        User since
        2006-05-04
        564 Artikel
        BenutzerIn
        
        Hallo rosti,
        
        Dein Script macht nicht dasselbe wie das ursprüngliche Script:
        
        In den Zeilen 43 und 44 werden dort bestimmte Inhalts-Zeilen ausgefiltert.
        In Zeile 45 wird dort der übertragene Inhalt zeilenweise modifiziert, siehe msg #178809.
        
        Beides scheint mir bei Deinem Ansatz nicht möglich zu sein, oder? Es fragt sich dann ggf., ob diese beiden Eigenschaften des ursprünglichen Scripts für OP künftig verzichtbar (oder durch anderes substituierbar?) sind. Zumindest sollten diese Einschränkungen beim Namen genannt werden, meine ich.
        
        Grüße
        payx
      - payx
        
        2014-12-19 11:07
        
        User since
        2006-05-04
        564 Artikel
        BenutzerIn
        
        Hallo rosti,
        
        2014-12-19T09:50:58 rosti
        Ja, die Zerlegung in Zeilen kostet CPU.
        Ich denke, die Zerlegung in Zeilen dürfte unvermeidbar sein, wenn weiterhin – wie im ursprünglichen Script – gewünscht ist, dass die Zeilen in der Zieldatei einzeln (mit der $scenario_id) präfigiert werden. Es handelt sich ja offenbar um eine Art CSV.
        
        Grüße
        payx
      - pq
        
        2014-12-19 12:40
        
        User since
        2003-08-04
        12209 Artikel
        Admin1
        
        jo, und wenn ich noch ein paar features streiche, komme ich auf 0 sekunden laufzeit...
        Always code as if the guy who ends up maintaining your code will be a violent psychopath who knows where you live. -- Damian Conway in "Perl Best Practices"
        lesen: Wie frage ich & perlintro brian's Leitfaden für jedes Perl-Problem
    - GUIfreund
      
      2014-12-19 11:50
      
      User since
      2011-08-08
      559 Artikel
      BenutzerIn
      
      Eine weitere Einsparmöglichkeit sehe ich in der Zeile
      
      Code (perl): (dl )
      
      print OUTFILE "\"$scenario_id\",".$line;
      
      Hier wird jeder Zeile die scenario_id vorangestellt. Das bläht die Ausgabedatei auf. Du könntest statt dessen am Anfang jeder Eingabedatei die scenario_id schreiben, mit einer passenden Sequenz davor, um diese Zeile leicht wiederfinden zu können.
      Gruß
      GUIfreund
- +6 replies
- payx
  
  2014-12-19 10:12
  User since
  2006-05-04
  564 Artikel
  BenutzerIn
  Ich sehe nur kleine Optimierungsmöglichkeiten:
  
  Die Zeilen 39 $cnt = 0; und 41 chomp $line; sind überflüssig, wenn das hier das vollständige Script ist.
  Die Zeilen 43 if ($line =~ m/^\*/) { $cnt++; next; } und 44 if ($line =~ m/^\s+/) { $cnt++; next; } lassen sich in next if $line =~ m/^[\*\s]/; zusammenfassen.
  
  Deutlich schneller wird das Script dadurch vermutlich nicht.
  
  Ansonsten sollte das Script in Richtung modernes Perl verbessert werden:
  
  use strict; und use warnings;
  lexikalische Filehandles
  
  Diese Änderungen werden aber vermutlich auch keine Beschleunigung bewirken.
  
  HTH
  Grüße
  payx
  - +5 replies
  - Muffi
    
    2014-12-19 10:26
    
    User since
    2012-07-18
    1465 Artikel
    BenutzerIn
    
    Quote
    ◾ Die Zeilen 39 $cnt = 0; ... sind überflüssig, wenn das hier das vollständige Script ist.
    
    Das würd ich so nicht unterschreiben.
    1 + 1 = 10
    - +4 replies
    - payx
      
      2014-12-19 10:33
      
      User since
      2006-05-04
      564 Artikel
      BenutzerIn
      
      Schade, dass man hier Beiträge nicht für ihren Informationsgehalt voten kann.
      
      SCNR
      - +3 replies
      - Muffi
        
        2014-12-19 10:42
        
        User since
        2012-07-18
        1465 Artikel
        BenutzerIn
        
        Naja, wenn da pro File mit $cnt++; was hochgezählt werden soll, machts schon einen Unterschied, ob das pro file wieder resettet wird oder nicht.
        
        Allerdings, wenn ich nochmal drüberschau, frag ich mich eh, was dieses $cnt macht - oder ich bin blind.
        1 + 1 = 10
        
        +2 replies
        
        payx
        
        2014-12-19 10:54
        
        User since
        2006-05-04
        564 Artikel
        BenutzerIn
        
        Mein Vorschlag in msg #178799 läuft auf eine völlige Eliminierung von $cnt hinaus, da diese Variable ja nicht weiter verwendet wird.
        
        Wie gesagt
        2014-12-19T09:12:27 payx
        , wenn das hier das vollständige Script ist.
        
        Muffi
        
        2014-12-19 10:55
        
        User since
        2012-07-18
        1465 Artikel
        BenutzerIn
        
        Achso, etz hab ichs kapiert
        1 + 1 = 10
- Muffi
  
  2014-12-19 10:33
  
  User since
  2012-07-18
  1465 Artikel
  BenutzerIn
  
  Ist das das komplette Programm?
  1 + 1 = 10
- +15 replies
- topeg
  
  2014-12-19 11:13
  User since
  2006-07-10
  2611 Artikel
  BenutzerIn
  Ist nur eine Annahme aber man könnte
  
  Code (perl): (dl )
  
  1 2
  
  if ($line =~ m/^\*/) { $cnt++; next; } if ($line =~ m/^\s+/) { $cnt++; next; }
  
  durch so was ersetzen:
  
  Code (perl): (dl )
  
  1 2
  
  my $c = substr($line,0,1); next if( $c eq '*' or $c eq ' ' or $c eq "\t" or $c eq "\r" or $c eq "\n");
  
  Das dürfte ein wenig schneller sein als das prüfen per Regex.
  Auch die Reihenfolge dieser Prüfungen kann sich auf die Geschwindigkeit auswirken.
  
  Was das beschleunigen des lesen einer Zeile selber betrifft ist das Problematisch einen guten Ratschlag zu geben. Vieles hängt davon ab wie die Dateien selber aussehen.
  - +4 replies
  - Gast Jan
    
    2014-12-19 11:35
    
    Hallo zusammen,
    
    vielen Dank für die zahlreichen Antworten! Zunächst ganz kurz: Ja, das Skript ist vollständig und absolut lauffähig. Der Header der zusammen zu kopierenden Dateien ist immer gleich lang (13 Zeilen werden verworfen). Ansonsten wird noch der Dateiname als zusätzliche Information je Zeile der Dateiname mit aufzunehmen.
    
    Ich brauche noch ein paar Minuten um die gemachten Vorschläge genau zu lesen und darauf zu antworten.
    
    Vielen Dank!
    Last edited: 2014-12-19 12:15:59 +0100 (CET)
    - pq
      
      2014-12-19 12:39
      
      User since
      2003-08-04
      12209 Artikel
      Admin1
      
      wenn du auf mehrere antworten eingehst bzw. auf den thread allgemein, dann antworte bitte nicht einfach auf den artikel, der ganz unten steht.
      das hier ist eine baumstruktur, da solltest du in dem fall auf den root-artikel antworten. also auf deinen eigenen.
      deine antwort ging ja nicht direkt und nicht nur an topeg, oder?
      danke.
      Always code as if the guy who ends up maintaining your code will be a violent psychopath who knows where you live. -- Damian Conway in "Perl Best Practices"
      lesen: Wie frage ich & perlintro brian's Leitfaden für jedes Perl-Problem
    - +2 replies
    - payx
      
      2014-12-19 13:32
      
      User since
      2006-05-04
      564 Artikel
      BenutzerIn
      
      Hallo,
      
      wenn das bedeutet, dass aus den Quelltexten jeweils nur die ersten 13 Zeilen entfernt werden müssen und danach alle übernommen werden sollen, also auch die mit * oder Whitespace am Anfang (oder es gibt nach Zeile 13 keine solchen mehr), dann gibt es tatsächlich Optimierungspotential, denn dann kann die regex-Prüfung wegfallen.
      
      Ersetze Zeilen 39-41 durch <INFILE> for (1..13); und lösche die Zeilen 43 und 44.
      
      Das sollte den Ablauf beschleunigen, denke ich.
      
      HTH
      Grüße
      payx
      - Muffi
        
        2014-12-19 14:03
        
        User since
        2012-07-18
        1465 Artikel
        BenutzerIn
        
        Da wird wohl das Nadelöhr die Platte sein, die ständig zwischen Datei1 und Datei2 hin und herpendelt, das müsst man erstmal einlesen und dann geblockt schreiben
        1 + 1 = 10
  - +10 replies
  - pq
    
    2014-12-19 12:41
    
    User since
    2003-08-04
    12209 Artikel
    Admin1
    
    darauf würd ich nicht wetten.
    ich erwarte eher, dass das noch langsamer ist.
    substr und dann mehrere abfragen...
    eine verankerte regex ist meist schneller als man denkt.
    Always code as if the guy who ends up maintaining your code will be a violent psychopath who knows where you live. -- Damian Conway in "Perl Best Practices"
    lesen: Wie frage ich & perlintro brian's Leitfaden für jedes Perl-Problem
    - +9 replies
    - pq
      
      2014-12-19 12:48
      
      User since
      2003-08-04
      12209 Artikel
      Admin1
      
      Code (perl): (dl )
      
      1 2 3 4 5 6 7 8 9 10 11 12 13 14
      
      my $text = "foo"; sub SUBSTR { my $c = substr $text, 0, 1; return ( $c eq "*" or $c eq " " or $c eq "\t" or $c eq "\r" or $c eq "\n" ); } sub REGEX { return ($text =~ m/^\*/ || $text =~ m/^\s+/); } use Benchmark; timethese(5000000, { substr => \&SUBSTR, regex => \&REGEX }) __END__ Benchmark: timing 5000000 iterations of regex, substr... regex: 2 wallclock secs ( 1.07 usr + 0.00 sys = 1.07 CPU) @ 4672897.20/s (n=5000000) substr: 1 wallclock secs ( 1.38 usr + 0.00 sys = 1.38 CPU) @ 3623188.41/s (n=5000000)
      
      Last edited: 2014-12-19 12:49:44 +0100 (CET)
      Always code as if the guy who ends up maintaining your code will be a violent psychopath who knows where you live. -- Damian Conway in "Perl Best Practices"
      lesen: Wie frage ich & perlintro brian's Leitfaden für jedes Perl-Problem
      - +8 replies
      - pq
        
        2014-12-19 12:53
        
        User since
        2003-08-04
        12209 Artikel
        Admin1
        
        der vollständigkeit halber müsste man noch mit beispielen benchmarken, bei denen die bedingungen wahr sind. steht am anfang ein '*', ist substr() tatsächlich schneller, bei ' ' auch noch, ab dann wirds langsamer.
        
        erwartet man in der mehrzahl aller fälle ein * oder ' ', dann nehme man substr()
        Always code as if the guy who ends up maintaining your code will be a violent psychopath who knows where you live. -- Damian Conway in "Perl Best Practices"
        lesen: Wie frage ich & perlintro brian's Leitfaden für jedes Perl-Problem
        
        +7 replies
        
        Muffi
        
        2014-12-19 12:55
        
        User since
        2012-07-18
        1465 Artikel
        BenutzerIn
        
        Und wenn man ne Oder-Regex macht <edit>Also [\s\*]</edit> und die compiled?
        Last edited: 2014-12-19 13:00:42 +0100 (CET)
        1 + 1 = 10
        
        +6 replies
        
        pq
        
        2014-12-19 13:07
        
        User since
        2003-08-04
        12209 Artikel
        Admin1
        
        macht auch nicht gross einen unterschied, und wäre nicht ganz korrekt.
        wenn dann /^(?:\s+|\*)/
        =)
        Always code as if the guy who ends up maintaining your code will be a violent psychopath who knows where you live. -- Damian Conway in "Perl Best Practices"
        lesen: Wie frage ich & perlintro brian's Leitfaden für jedes Perl-Problem
        
        +5 replies
        
        Muffi
        
        2014-12-19 13:10
        
        User since
        2012-07-18
        1465 Artikel
        BenutzerIn
        
        Warum das +?
        
        Und ich hab ein komisches Phänomen :\
        Ohne compiled wirds ein ganzes Stück schneller als die manuelle Oder-Version, mit Compiled wirds viel langsamer
        1 + 1 = 10
        
        +4 replies
        
        pq
        
        2014-12-19 13:12
        
        User since
        2003-08-04
        12209 Artikel
        Admin1
        
        ach stimmt, das + ist ja in dem fall unnötig.
        hatte es einfach aus dem original übernommen, ohne drüber nachzudenken.
        
        edit: dann ist die regex in jedem fall schneller.
        Last edited: 2014-12-19 13:14:33 +0100 (CET)
        Always code as if the guy who ends up maintaining your code will be a violent psychopath who knows where you live. -- Damian Conway in "Perl Best Practices"
        lesen: Wie frage ich & perlintro brian's Leitfaden für jedes Perl-Problem
        
        +3 replies
        
        Muffi
        
        2014-12-19 13:22
        
        User since
        2012-07-18
        1465 Artikel
        BenutzerIn
        
        Nur, warum das viel langsamer ist, als direkt die Regex (und es liegt nicht am state) versteh ich nicht.
        
        Code (perl): (dl )
        
        1 2 3 4
        
        sub COMPILED { state $regex = qr/^[\s\*]/; return ($text =~ $regex); }
        
        evtl. ist die Regex so einfach, dass sie im Vergleich zu etwas, was bei kompilierten Regexs gemacht werden muss nicht ins Gewicht fällt
        Last edited: 2014-12-19 13:23:31 +0100 (CET)
        1 + 1 = 10
        
        +2 replies
        
        pq
        
        2014-12-19 13:48
        
        User since
        2003-08-04
        12209 Artikel
        Admin1
        
        ja, das weiss ich auch nicht.
        in 5.20 (im vergleich zu 5.18) ist die qr-variante nochmal deutlich langsamer...
        Always code as if the guy who ends up maintaining your code will be a violent psychopath who knows where you live. -- Damian Conway in "Perl Best Practices"
        lesen: Wie frage ich & perlintro brian's Leitfaden für jedes Perl-Problem
        
        Muffi
        
        2014-12-19 13:51
        
        User since
        2012-07-18
        1465 Artikel
        BenutzerIn
        
        Was mich wieder mal darin bestärkt, dass man ohne Benchmark bei Geschwindigkeitsaussagen und Optimierungen furchtbar daneben liegen kann.
        1 + 1 = 10
- Muffi
  
  2014-12-19 11:46
  User since
  2012-07-18
  1465 Artikel
  BenutzerIn
  Ich würd mal sowas in der Art probiern und schaun, obs der Hauptspeicher aushält.
  Und auch obs überhaupt schneller wird.
  
  Code (perl): (dl )
  
  1 2 3 4 5 6
  
  my $data; while (read(DATA, my $d, 1024 * 1024 * 10)) { # 10mb $data .= $d; } my @lines = $data =~ /^[^\s\*].*$/gm;
  
  1 + 1 = 10
- +3 replies
- GwenDragon
  
  2014-12-19 15:45
  
  User since
  2005-01-17
  14848 Artikel
  Admin1
  
  Du verwendest als Quelllaufwerk C:; damit hast du die erste Bremse, denn dort läuft auch dein Betriebssystem und das Temporäre Verzeichnis.
  Und wenn N: auch nur eine weitere Partition auf dem physikalischen Laufwerk auf dem auch C: existiert, hast du die zweite Bremse, weil der Festplattenkopf trotz Auslagerungsspeicher hin und her rennen muss.
  Und wenn N: ein Netzwerklaufwerk ist, wird es auch nicht besoners fix beim speichern.
  Und wenn der Hauptspeicher nicht besonders groß ist, Windows denselben ziemlich blöde verwaltet, bremst das auch.
  Und wenn der Virenscanner auch noch beim lesen und speichern scannt, dann bremst das auch.
  
  Lege Quelle und Ziel auf je ein echtes physikalisches Festplatten-Laufwerk!
  Vermeide, dass dein Virenscanner diese währenddessen scannt!
  
  Aber ohne irgendwelche Benchmarks kann niemand sagen, was bei dir langsam läuft.
  Bislang erwähntest du, dass 1GB erzeugen da 900 Sekunden braucht, das wären ca. 1.3 Mbyte/s.
  Hast du ja nicht erklärt wie schnell du es willst.
  Und deine Hardware insbesondere HD-Controller und HDs kennt niemand.
  
  //EDIT:
  Bei mir dauert mit Perl das Scannen einer 1GB-ISO nacheinem bestimmten String und das wegschreiben 50 Sekunden, das wären ca. 20 MByte/s
  Last edited: 2014-12-19 16:15:41 +0100 (CET)
  die Drachin Gwen
  
  Meine Perl-Artikel · perldev – verschiedene Perl-Versionen unter Windows starten
  - +2 replies
  - hlubenow
    
    2014-12-19 18:25
    
    User since
    2009-02-22
    882 Artikel
    BenutzerIn
    
    Ich bin auch eher skeptisch, ob wir hier per Ferndiagnose ein produktiv eingesetztes Skript optimieren können oder sollten, mit dem wir gar keine Erfahrungen haben und das wir auch nicht testen können.
    Ich würde z.B. keine Zeichen aus den RegExes streichen, ohne genau zu wissen, wie sich das auf das Ergebnis auswirkt. Kann sonst ja sein, daß das Programm am Ende zwar schneller läuft, aber nicht das gewünschte Ergebnis liefert, im schlimmsten Fall sogar, ohne daß man's zunächst merkt.
    - GUIfreund
      
      2014-12-20 10:53
      
      User since
      2011-08-08
      559 Artikel
      BenutzerIn
      
      IMHO ist Testen und Benchmarken Aufgabe des OP. Wir können nur Anregungen geben.
      Gruß
      GUIfreund

View all threads created 2014-12-19 09:34.