Performance Problem mit Perl bei RegEx (Allgemeines zu Perl)

[thread]13505[/thread]

Performance Problem mit Perl bei RegEx

Tags: regex Ähnliche Threads

Leser: 29

Articles: hide open all | hide show old branches

+35 replies
nomoresecrets

2009-05-11 17:16
User since
2009-05-11
8 Artikel
BenutzerIn
Hallo Leute,

habe ein kleines Problem und vllt kann mir wer einen Tipp geben!?

Meine Umgebung sieht in etwa so aus:

* ich habe ein txt-file mit ~1,5GB Größe
* ich suche einen festen String (später dann auch variable, bzw Strings wo ich einfach regex brauch um sie zu beschreiben)
* ich zähle die Treffer mit
* ich gebe die Trefferanzahl aus

das Ganze habe ich in Perl und Java (nich schlagen, war eher aus Interesse um belegen zu können wie toll doch Perl ist) umgesetzt

Quellcode siehe Links weiter unten.

Mein Problem ist nun, dass Java ~30% schneller ist wenn ich regex nehme und wenn ich die Methode contains nutze, dann sogar 10x so schnell wie mein Perlscript.

Das kann doch irgendwo nicht sein oder?

Ich hab auch schon mit direktem Stringvergleich, Substringvergleich, index und diversen regex-flags rumprobiert, aber es wird einfach nicht besser :(

Da das Programm später 100+GB Textfiles durchforsten muss, ist auch nur der geringste Performanceschub wichtig für mich.

hier die beiden Quellcodes:

Perl hat eine Laufzeit von ca 4min30s, das Java-Ding mit Regex ~3min und mit contains nur ~35s

Hat wer eine Idee warum Perl so extrem langsam ist?
Code (perl): (dl )

1 2 3 4 5 6 7 8 9 10

open TRACEFILE, "<C:\\myfile.txt" or die "cannot open tracefile"; my $found=0; while (!eof TRACEFILE) { $in_line = <TRACEFILE>; # lese aktuelle Zeile ein chomp($in_line); if ($in_line =~ m/CP_NG/) { $found++; } } print "anzahl treffer: $found\n";
Code: (dl )

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25

import java.io.BufferedReader; import java.io.FileReader; public class Test { public static void main(String[] args) { int found=0; try { BufferedReader reader = new BufferedReader(new FileReader("c:\\myfile.txt")); String line; while ((line = reader.readLine()) != null) { // if (line.contains("CP_NG")) { // found++; // } if (line.matches(".*CP_NG.*")) { found++; } } reader.close(); } catch (Exception e) { e.printStackTrace(); } System.out.println("anzahl treffer:"+found); } }
Vielen Dank schonmal

Grüße

nms
- pq
  
  2009-05-11 17:30
  User since
  2003-08-04
  12209 Artikel
  Admin1
  also erstmal vergleichst du contains() in java mit perl-regex.
  das ist ziemlich unfair. beschränken wir uns doch auf den vergleich java-regex - perl-regex und java-contains - perl-index.
  zu letzterem fehlt dann noch der vergleich.
  
  im übrigen würde ich aus
  
  Code (perl): (dl )
  
  1 2
  
  while (!eof TRACEFILE) { $in_line = <TRACEFILE>;
  
  das hier machen:
  
  Code (perl): (dl )
  
  while (my $in_line = <TRACEFILE>) {
  
  Always code as if the guy who ends up maintaining your code will be a violent psychopath who knows where you live. -- Damian Conway in "Perl Best Practices"
  lesen: Wie frage ich & perlintro brian's Leitfaden für jedes Perl-Problem
- +2 replies
- Taulmarill
  
  2009-05-11 17:30
  
  User since
  2004-02-19
  1750 Artikel
  BenutzerIn
  
  Was mir sofort in's Auge springt ist, dass du so wie das Script im Moment aussieht chomp() nicht brauchst.
  
  Außerdem solltest du, wenn du die maximale Performance haben willst, überprüfen, ob der von dir verwendete Interpreter mit Thread-Unterstützung compiliert ist. Die Unterstützung frisst recht viel Performance, auch wenn man Threads gar nicht benutzt.
  $_=unpack"B*",~pack"H*",$_ and y&1|0& |#&&print"$_\n"for@.=qw BFA2F7C39139F45F78 0A28104594444504400 0A2F107D54447DE7800 0A2110453444450500 73CF1045138445F4800 0 F3EF2044E3D17DE 8A08A0451412411 F3CF207DF41C79E 820A20451412414 83E93C4513D17D2B
  - pq
    
    2009-05-11 17:34
    
    User since
    2003-08-04
    12209 Artikel
    Admin1
    
    2009-05-11T15:30:46 Taulmarill
    Was mir sofort in's Auge springt ist, dass du so wie das Script im Moment aussieht chomp() nicht brauchst.
    
    stimmt, und vor allem nicht vor dem match.
    Always code as if the guy who ends up maintaining your code will be a violent psychopath who knows where you live. -- Damian Conway in "Perl Best Practices"
    lesen: Wie frage ich & perlintro brian's Leitfaden für jedes Perl-Problem
- pq
  
  2009-05-11 17:48
  
  User since
  2003-08-04
  12209 Artikel
  Admin1
  
  wenn man das chomp weglässt und aus dem !eof gleich das zeilen-einlesen macht, kann man nochmal ein viertel der zeit einsparen (ist aber u.U. je nach perl-version und betriebssystem unterschiedlich).
  Always code as if the guy who ends up maintaining your code will be a violent psychopath who knows where you live. -- Damian Conway in "Perl Best Practices"
  lesen: Wie frage ich & perlintro brian's Leitfaden für jedes Perl-Problem
- +7 replies
- topeg
  
  2009-05-11 17:56
  User since
  2006-07-10
  2611 Artikel
  BenutzerIn
  Code (perl): (dl )
  
  1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
  
  #/usr/bin/perl use strct; use warnings; my $file='C:\myfile.txt'; # regexp vorkompilieren my $regexp=qx/CP_NG/o; # vernünftige Fehlermeldung open(TRACEFILE, '<', $file ) or die "cannot open $file $!\n"; # vor der Schleife definieren # das redefine in der Schleife bremst aus my $found=0; my $in_line; while ($in_line = <TRACEFILE>) { # du willst doch alle Treffer in einer Zeile nicht nur einen oder? $found += $in_line =~ m/$regexp/g; } print "anzahl treffer: $found\n";
  
  Etwas schneller denke ich... Nachteil: es könnte der gesuchte String zerschnitten werden... dagegen gäbe es Abhilfe die aber ein wenig komplizierter ist.
  
  Code (perl): (dl )
  
  1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18
  
  #/usr/bin/perl use strct; use warnings; my $chuncksize=10*1024*1024; # 10MB je größer je schneller my $file='C:\myfile.txt'; my $regexp=qx/CP_NG/o; open(TRACEFILE, '<', $file ) or die "cannot open $file $!\n"; my $found=0; my $chunk; while (read(TRACEFILE, $chunk, $chuncksize)) { $found += $chunk =~ m/$regexp/g; } print "anzahl treffer: $found\n";
  
  Mit Überschneidung:
  
  Code (perl): (dl )
  
  1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
  
  #/usr/bin/perl use strct; use warnings; my $shared=100; # 100 Zeichen Überschneidung my $chuncksize=10*1024*1024; my $file='C:\myfile.txt'; my $regexp=qx/CP_NG/o; open(TRACEFILE, '<', $file ) or die "cannot open $file $!\n"; my $found=0; my $chunk; my $old; while (read(TRACEFILE, $chunk, $chuncksize)) { $chunk=$old+$chunk; $found += $chunk =~ m/$regexp/g; $old=substr($chunk,-$shared,$shared); $old =~ s/$regexp//g; } print "anzahl treffer: $found\n";
  
  Man müsste testen was schneller ist...
  - +3 replies
  - nomoresecrets
    
    2009-05-11 18:10
    
    User since
    2009-05-11
    8 Artikel
    BenutzerIn
    
    ich werds testen,
    
    ps: gibt immer nur einen Treffer pro Zeile
    
    aktueller stand:
    
    chomp ist weg,
    while auf "while (my $in_line = <TRACEFILE>)" angepasst
    
    mit m/CP_NG/ => ~2m45s
    mit index() => ~ 2m40s
    
    ich werds noch mit vorkompilieren testen
    
    sooo und jetzt nochmal was zum flamen ...
    
    unter linux ist es nochmal bedeutend schneller (und das aufm langsameren rechner - werds gleich mal auf einen ebenbürtigen PC transferieren und dann mal den unterschied zwischen win32 und linux testen), da dauerts mit index() nur ~47s ABER!! er findet 10 Treffer weniger UND viel wichtiger - das Tool muss am Ende auch unter Windows schnell sein - deswegen bitte kein nimm-halt-linux-flame ;)
    
    danke schonmal für die anregungen + tipps
    Last edited: 2009-05-11 18:12:10 +0200 (CEST)
    - pq
      
      2009-05-11 18:18
      
      User since
      2003-08-04
      12209 Artikel
      Admin1
      
      du kriegst java auch noch schneller, indem du das pattern vorkompilierst:
      
      Code (java): (dl )
      
      Pattern pat = Pattern.compile(...)
      
      (danke an Patterner aus dem IRC)
      trotzdem bleibt es hier bei 5 zu 18 für perl.
      Always code as if the guy who ends up maintaining your code will be a violent psychopath who knows where you live. -- Damian Conway in "Perl Best Practices"
      lesen: Wie frage ich & perlintro brian's Leitfaden für jedes Perl-Problem
    - renee
      
      2009-05-11 18:26
      
      User since
      2003-08-04
      14371 Artikel
      ModeratorIn
      
      2009-05-11T16:10:42 nomoresecrets
      sooo und jetzt nochmal was zum flamen ...
      
      unter linux ist es nochmal bedeutend schneller
      Welche Perl-Distribution auf Windows? Bei den meisten Linux-Distros ist Perl - wenn ich das richtig in Erinnerung habe - ohne Threads und wenn Du ActivePerl auf Windows hast, ist das mit Threads kompiliert. Das macht einiges aus!
      Quote
      (und das aufm langsameren rechner - werds gleich mal auf einen ebenbürtigen PC transferieren und dann mal den unterschied zwischen win32 und linux testen), da dauerts mit index() nur ~47s ABER!! er findet 10 Treffer weniger
      ??? Wie das? Wie sieht Dein Code aus?
      OTRS-Erweiterungen (http://feature-addons.de/)
      Frankfurt Perlmongers (http://frankfurt.pm/)
      --
      
      Unterlagen OTRS-Workshop 2012: http://otrs.perl-services.de/workshop.html
      Perl-Entwicklung: http://perl-services.de/
  - +3 replies
  - nomoresecrets
    
    2009-05-11 18:25
    
    User since
    2009-05-11
    8 Artikel
    BenutzerIn
    
    Quote
    my $regexp=qx/CP_NG/o;
    
    bringt bei mir einen
    
    Bareword found where operator expected
    syntax error
    
    fehler :/
    - pq
      
      2009-05-11 18:26
      
      User since
      2003-08-04
      12209 Artikel
      Admin1
      
      er meinte wohl qr// anstatt qx//
      Always code as if the guy who ends up maintaining your code will be a violent psychopath who knows where you live. -- Damian Conway in "Perl Best Practices"
      lesen: Wie frage ich & perlintro brian's Leitfaden für jedes Perl-Problem
    - renee
      
      2009-05-11 18:27
      
      User since
      2003-08-04
      14371 Artikel
      ModeratorIn
      
      2009-05-11T16:25:32 nomoresecrets
      Quote
      my $regexp=qx/CP_NG/o;
      
      bringt bei mir einen
      
      Bareword found where operator expected
      syntax error
      
      fehler :/
      
      das muss qr statt qx heißen...
      OTRS-Erweiterungen (http://feature-addons.de/)
      Frankfurt Perlmongers (http://frankfurt.pm/)
      --
      
      Unterlagen OTRS-Workshop 2012: http://otrs.perl-services.de/workshop.html
      Perl-Entwicklung: http://perl-services.de/
- +6 replies
- pq
  
  2009-05-11 18:02
  
  User since
  2003-08-04
  12209 Artikel
  Admin1
  
  ich habs gerade mal hier getestet mit einer 100MB datei. perl braucht 7 sekunden, java 30. linux, perl 5.8.8 und 5.10.
  vielleicht ist es auf windows anders, aber schon ein krasser unterschied...
  
  edit: und wenn ich die variable ausserhalb der schleife deklariere, wie von topeg vorgeschlagen (und analog zu java), sind es bei perl nur noch 5 sekunden.
  Last edited: 2009-05-11 18:06:06 +0200 (CEST)
  Always code as if the guy who ends up maintaining your code will be a violent psychopath who knows where you live. -- Damian Conway in "Perl Best Practices"
  lesen: Wie frage ich & perlintro brian's Leitfaden für jedes Perl-Problem
  - +5 replies
  - nomoresecrets
    
    2009-05-11 19:00
    
    User since
    2009-05-11
    8 Artikel
    BenutzerIn
    
    ookay, ich komm hier aus dem staunen gar nicht mehr raus
    
    also ich hab das Skript auf 3 Rechnern getestet
    
    1x Win, 2x Linux
    
    Windows hat Perl 5.10 (activeperl)
    beide Linux haben 5.8.5
    
    der WindowsPC und einer der Linux-PCs haben einen Intel C2Duo 6300 (also 2x1,86GHz) mit 2GB Ram hier braucht das Script unter Windows ~2:50 und unter Linux sogar ~3:30
    
    auf dem anderen Linux PC, normaler P4 SingleCore mit 3,2Ghz und 1GB jedoch nur ~54sec
    - +2 replies
    - topeg
      
      2009-05-11 19:12
      
      User since
      2006-07-10
      2611 Artikel
      BenutzerIn
      
      Das ist ein Test bei dem der Datendurchsatz des Prozessors/Board sehr beansprucht wird. Bei einer langsamen Platte/wenig Cache/geringer DMA-Durchsatz können recht schlechte Werte heraus kommen, da das Script auf die Daten warten muss. Es kann auch sein, dass der Multiprozessor hier dazwischenfunkt, wegen der Lastverteilung. Es kann durch aus etwas bringen das Script an einen Prozessor zu binden, ich weiß aber gerade nicht wie man das hin bekommt.
      - nomoresecrets
        
        2009-05-11 19:14
        
        User since
        2009-05-11
        8 Artikel
        BenutzerIn
        
        unter windows brachte das nix :(
    - +2 replies
    - renee
      
      2009-05-11 19:15
      
      User since
      2003-08-04
      14371 Artikel
      ModeratorIn
      
      2009-05-11T17:00:34 nomoresecrets
      Windows hat Perl 5.10 (activeperl)
      beide Linux haben 5.8.5
      
      der WindowsPC und einer der Linux-PCs haben einen Intel C2Duo 6300 (also 2x1,86GHz) mit 2GB Ram hier braucht das Script unter Windows ~2:50 und unter Linux sogar ~3:30
      Die Regex-Engine wurde für 5.10 komplett überarbeitet. Die dürfte etwas schneller sein. Wundert mich zwar etwas, dass das den "Thread-Nachteil" mehr als wett macht, aber ok...
      OTRS-Erweiterungen (http://feature-addons.de/)
      Frankfurt Perlmongers (http://frankfurt.pm/)
      --
      
      Unterlagen OTRS-Workshop 2012: http://otrs.perl-services.de/workshop.html
      Perl-Entwicklung: http://perl-services.de/
      - pq
        
        2009-05-11 19:16
        
        User since
        2003-08-04
        12209 Artikel
        Admin1
        
        auf meinem system gibt es zwischen 5.8.8 und 5.10 dagegen aber keinen messbaren unterschied.
        Always code as if the guy who ends up maintaining your code will be a violent psychopath who knows where you live. -- Damian Conway in "Perl Best Practices"
        lesen: Wie frage ich & perlintro brian's Leitfaden für jedes Perl-Problem
- +7 replies
- sid burn
  
  2009-05-11 18:21
  
  User since
  2006-03-29
  1520 Artikel
  BenutzerIn
  
  2009-05-11T15:16:39 nomoresecrets
  Hallo Leute,
  das Ganze habe ich in Perl und Java (nich schlagen, war eher aus Interesse um belegen zu können wie toll doch Perl ist) umgesetzt
  
  Obwohl ich hier sagen muss das Java eigentlich schon ziemlich schnell ist. Das Java langsam ist, ist wohl immer noch so ein Vorurteil wie das Perl nur CGI wäre und unleserlich, unwartbar.
  
  Ansonsten hat Java eine gute Platform und auch einen JIT. Sogar tolle funktionalitäten wie vernünftiges Threading.
  
  Ich würde jedenfalls nicht pauschal behaupten das Perl schneller wäre als Java eher das genaue Gegenteil.
  Nicht mehr aktiv. Bei Kontakt: ICQ: 404181669 E-Mail: perl@david-raab.de
  - +6 replies
  - pq
    
    2009-05-11 18:25
    
    User since
    2003-08-04
    12209 Artikel
    Admin1
    
    wie man sieht, ist perl auf meinem linux-system drei bis viermal so schnell. (regex-variante).
    ist also stark vom interpreter abhängig (und/oder von java, ich hab mit der 5er version getestet).
    
    edit: s/fast//
    Last edited: 2009-05-11 18:41:13 +0200 (CEST)
    Always code as if the guy who ends up maintaining your code will be a violent psychopath who knows where you live. -- Damian Conway in "Perl Best Practices"
    lesen: Wie frage ich & perlintro brian's Leitfaden für jedes Perl-Problem
    - +2 replies
    - nomoresecrets
      
      2009-05-11 19:02
      
      User since
      2009-05-11
      8 Artikel
      BenutzerIn
      
      siehe oben http://www.perl-community.de/bat/poard/message/121...
      
      kann ich zumindest hier im umfeld nicht bestätigen
      
      scheint dann doch eher an reiner cpu-leistung zu liegen
      - pq
        
        2009-05-11 19:13
        
        User since
        2003-08-04
        12209 Artikel
        Admin1
        
        2009-05-11T17:02:00 nomoresecrets
        scheint dann doch eher an reiner cpu-leistung zu liegen
        
        das kann nicht sein. bei mir ist perl 3-4 mal so schnell, bei dir war java (anfänglich) 1.3 mal so schnell. ich glaube nicht, dass allein die CPU das verhältnis so umkehren kann.
        ich hab hier: Intel(R) Core(TM) Duo CPU L2400 @ 1.66GHz
        und perl braucht für ca. 100MB 5 sekunden (wären wohl 75sec für 1.5GB dann).
        jetzt fehlen eigentlich noch vergleichszahlen von dir, du hast ja zuletzt nur noch das perlscript gemessen, aber anscheinend nicht java.
        Always code as if the guy who ends up maintaining your code will be a violent psychopath who knows where you live. -- Damian Conway in "Perl Best Practices"
        lesen: Wie frage ich & perlintro brian's Leitfaden für jedes Perl-Problem
    - +3 replies
    - sid burn
      
      2009-05-12 01:01
      
      User since
      2006-03-29
      1520 Artikel
      BenutzerIn
      
      2009-05-11T16:25:58 pq
      wie man sieht, ist perl auf meinem linux-system drei bis viermal so schnell. (regex-variante).
      ist also stark vom interpreter abhängig (und/oder von java, ich hab mit der 5er version getestet).
      
      edit: s/fast//
      
      Obwohl mich generell gesagt die ganzen Benchmarkergebnisse wundern. das was hier ja gemacht wird ist eine Datei einzulesen und dann eine Regex darauf laufen zu lassen. Egal wie gut oder schlecht nun die Java Version ist, eigentlich dürfte es überhaupt keinen unterschied geben.
      
      Wäre mir jedenfalls neu das eine Festplatte schneller Daten liefern kann als das eine CPU diese verarbeiten kann, volkommen egal ob nun Perl oder Java ist.
      
      Hast du die Benchmarks den öfters laufen lassen? Ansonsten muss ich das auch mal selber Benchmarken.
      Nicht mehr aktiv. Bei Kontakt: ICQ: 404181669 E-Mail: perl@david-raab.de
      - topeg
        
        2009-05-12 06:29
        
        User since
        2006-07-10
        2611 Artikel
        BenutzerIn
        
        Was das Skript aus bremst, ist das suchen nach den Newlines, und das häufige Starten der Regexpengine, wie meine alternative Implementierung zeigt. Es kann durchaus sein, dass Linux hier unterstützend wirkt, z.B. indem es den Prozessorcache intelligenter nutzt, oder den RAM besser organisiert. Auch der Sheduler kann seinen Beitrag dazu leisten. Es kann auch einfach sein, dass perl besser auf Linux als auf Windows abgestimmt ist (weil z.B keine POSIX-Befehle emuliert werden müssen) Das müsste man Leute fragen die mehr Ahnung damit haben.
      - pq
        
        2009-05-12 10:05
        
        User since
        2003-08-04
        12209 Artikel
        Admin1
        
        2009-05-11T23:01:39 sid burn
        Hast du die Benchmarks den öfters laufen lassen?
        
        du kannst mir glauben, dass ich ein *bisschen* ahnung von benchmarks habe und sicherlich nicht nach einmal ausprobieren hier ergebnisse poste. diese frage ist eine beleidigung
        Always code as if the guy who ends up maintaining your code will be a violent psychopath who knows where you live. -- Damian Conway in "Perl Best Practices"
        lesen: Wie frage ich & perlintro brian's Leitfaden für jedes Perl-Problem
- +10 replies
- topeg
  
  2009-05-11 19:07
  User since
  2006-07-10
  2611 Artikel
  BenutzerIn
  für eine einigermaßen brauchbare Testgrundlage:
  
  Code: (dl )
  
  perl -e '$such="--TEST--"; for(0..(200*1024*1024)){ print chr(33+rand(90)); print "\n" if(rand(40)<2); print $such if(rand(1000)<5)}' > test.random.txt
  
  sollte eine TextRandomDatei erzeugen, die 200MB groß ist, und einige Suchstrings enthält.
  
  Quote
  >$ ls -lh test.random.txt
  -rw-rw---- 1 topeg topeg 210M 11. Mai 18:26 test.random.txt
  
  mit dem Code:
  
  Code (perl): (dl )
  
  1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
  
  #!/usr/bin/perl use strict; use warnings; my $file='test.random.txt'; # regexp vorkompilieren my $regexp=qr/--TEST--/o; # vernünftige Fehlermeldung open(TRACEFILE, '<', $file ) or die "cannot open $file $!\n"; # vor der Schleife definieren # das redefine in der Schleife bremst aus my $found=0; my $in_line; while ($in_line = <TRACEFILE>) { $found++ while($in_line =~ m/$regexp/gc); #$found++ if($in_line =~ m/$regexp/); } print "Anzahl Treffer: $found\n";
  
  bekomme ich:
  
  mit "found++ if($in_line =~ m/$regexp/)"
  
  Quote
  >$ time ./regexpfind.pl
  Anzahl Treffer: 922896
  
  real 0m15.530s
  user 0m14.361s
  sys 0m0.312s
  
  mit "$found++ while($in_line =~ m/$regexp/gc);"
  
  Quote
  >$ time ./regexpfind.pl
  Anzahl Treffer: 1010759
  
  real 0m19.092s
  user 0m17.133s
  sys 0m0.392s
  
  mit dem Code:
  
  Code (perl): (dl )
  
  1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
  
  #!/usr/bin/perl use strict; use warnings; my $shared=100; # 100 Zeichen Überschneidung my $chuncksize=10*1024*1024; my $file='test.random.txt'; my $regexp=qr/--TEST--/o; open(TRACEFILE, '<', $file ) or die "cannot open $file $!\n"; my $found=0; my $chunk; my $old=""; while (read(TRACEFILE, $chunk, $chuncksize)) { $chunk=$old.$chunk; $found++ while($chunk =~ m/$regexp/gsc); $old = substr($chunk,-$shared,$shared); $old =~ s/$regexp//gs; } print "anzahl treffer: $found\n";
  
  bekomme ich:
  
  Quote
  >$ time ./regexpfind2.pl
  anzahl treffer: 1010759
  
  real 0m3.076s
  user 0m2.260s
  sys 0m0.708s
  
  EDIT:
  Ach ja etwas zu meinem Computer:
  "lshw" sagt dazu:
  
  Code: (dl )
  
  1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
  
  *-core description: Motherboard product: MS-6570 vendor: MICRO-STAR INTERNATIONAL CO., LTD physical id: 0 slot: External Cache *-cpu description: CPU product: AMD Athlon(tm) XP 2700+ vendor: Advanced Micro Devices [AMD] physical id: 4 bus info: cpu@0 version: 6.10.0 slot: Socket A size: 2GHz capacity: 2200MHz width: 32 bits clock: 166MHz *-memory description: System Memory physical id: 1b slot: System board or motherboard size: 1GiB capacity: 1536MiB
  
  EDIT2:
  Diese Version, die "forks" benutzt, sollte auf Multiprozessormaschinen schneller laufen:
  
  Code (perl): (dl )
  
  1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77
  
  #!/usr/bin/perl use forks; # oder "use threads", # forks bringen hier die bessere Multiprozessorunterstützung denke ich. use strict; use warnings; my $shared=100; # 100 Zeichen Überschneidung my $chuncksize=10*1024*1024; # 10 MB my $file='/home/topeg/test.random.txt'; my $regexp=qr/--TEST--/o; # maximal 4 Prozesse das macht bei 10 MB pro Prozess 40 MB... my $threads=4; open(TRACEFILE, '<', $file ) or die "cannot open $file $!\n"; my $found=0; my $chunk; my $old=""; my @running; my $pos=0; while (read(TRACEFILE, $chunk, $chuncksize)) { $chunk=$old.$chunk; # erstmal alle Prozesse erzeugen if(@running < $threads) { push(@running,get_thread($chunk)); } else { #auf einen Prozess warten ... $found+=$running[$pos]->join(); #neuen erzeugen ... $running[$pos]=get_thread($chunk); # einen weiter $pos++; # Liste wieder von vorne beginnen $pos=0 if($pos >= $threads); } $old = substr($chunk,-$shared,$shared); $old =~ s/$regexp//gs; } # auf die restlichen warten.... $pos=0; while($pos<$threads) { $found+=$running[$pos]->join(); $pos++; } print "anzahl treffer: $found\n"; exit(0); ############################################### # thread/prozess erzeugen sub get_thread { my $thread=threads->create(\&parse, shift); die "error create thread" unless(defined($thread)); return $thread; } # die Arbeit erledigen sub parse { my $found=0; my $chunk=shift; $found++ while($chunk =~ m/$regexp/gsc); $chunk=""; return $found; }
  
  Bei mir ist sie etwas langsamer (kein Wunder mit nur einem Prozessor :-) )
  
  Quote
  >$ time ./regexpfind3.pl
  anzahl treffer: 1010759
  
  real 0m5.603s
  user 0m3.844s
  sys 0m1.596s
  
  Last edited: 2009-05-11 23:50:12 +0200 (CEST)
  - nomoresecrets
    
    2009-05-11 19:22
    
    User since
    2009-05-11
    8 Artikel
    BenutzerIn
    
    ich teste es morgen - muss jetzt erstma feierabend machen ;)
    
    danke an alle Helfenden
  - +8 replies
  - sid burn
    
    2009-05-12 01:19
    User since
    2006-03-29
    1520 Artikel
    BenutzerIn
    
    2009-05-11T17:07:32 topeg
    mit dem Code:
    
    Code (perl): (dl )
    
    1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24
    
    #!/usr/bin/perl use strict; use warnings; my $file='test.random.txt'; # regexp vorkompilieren my $regexp=qr/--TEST--/o; # vernünftige Fehlermeldung open(TRACEFILE, '<', $file ) or die "cannot open $file $!\n"; # vor der Schleife definieren # das redefine in der Schleife bremst aus my $found=0; my $in_line; while ($in_line = <TRACEFILE>) { $found++ while($in_line =~ m/$regexp/gc); #$found++ if($in_line =~ m/$regexp/); } print "Anzahl Treffer: $found\n";
    
    bekomme ich:
    
    Habe die testdaten ebenfalls so angelegt so wie du es gemacht hast. Bei mir dauert das ganze mit diesem geposteten Code ca. 8 reale Sekunden zum durchlaufen. Auch nach ca. 10 maligen ausführen, von daher da ist auszugehen das schon alles wenn gecached ist.
    
    Allerdiengs kann ich die laufzeit um fast 50% reduzieren indem ich an der Regex einfach die Option "/o" anhänge. (sinkt dann auf 4.4 reale sekunden)
    
    Das ganze mit Perl 5.10 in Debian Lenny. Ich habe allerdiengs noch ein selbst kompiliertes Perl 5.10.0. Das benötigt nur "3.7 reale sekunden". Das selbst kompilierte hat kein "ihtread" support. Das eingebaute in Debian hat es.
    
    Ob es allerdiengs nur an dem ithread support liegt oder nicht noch an etwas anderen weiß ich so nicht. Müsste ich nochmal selber kompilieren mit ithread.
    
    Ansonsten wenn eine variable in einer Regex interpoliert so muss bei jedem! aufruf der Regex vorher geprüft werden ob sich die variable geändert hat, was eine menge checks sind. Mit der Option /o wird die Regex nur einmalig kompiliert, auch wenn sich der Inhalt der variable verändert bleibt dann das enthalten was beim ersten ausführen drin war.
    
    Also das /o muss an der while schleife angehangen werden.
    
    Code: (dl )
    
    $found++ while($in_line =~ m/$regexp/gco)
    
    Das hier ist übrigens total sinnlos:
    
    Code: (dl )
    
    my $regexp=qr/--TEST--/o;
    
    Eine Regex wird bei Perl sowieso schon vor der Ausführung nur einmalig kompiliert. das /o hat nur einen effekt wenn eine variable in der Regex interpretiert wird.
    
    Bei der while Schleife wird die variable nur einmalig interpoliert und nie wieder auch wenn sich der inhalt ändert, wo anders hat das keine auswirkung. In diesen Fall ist das eine gültige Optimieren, da sich der Inhalt ja wirklich nie ändert.
    
    ----
    
    Mit deinem zweiten Beispiel dauert es bei mir schon fast ziemlich genau 1 reale sekunde, sogar immer etwas weniger.
    
    Mit /o an der while schleife sinkt die laufzeit auf 0.6 sekunden reale zeit
    
    Beides Debian Lenny version. Selbst kompiliertes ohne /o macht: 0.88 sekunden
    
    Selbst kompiliert /o an while schleife: 0.65 sekunden
    
    Hier scheint also wohl die grenze des I/O erreicht zu sein.
    
    ---
    
    Deine letzte version mit "forks" wird dann wieder langsamer.
    
    Debian Lenny Perl: 1.4 sek
    Selbstkompiliertes Perl: 1.4 sek (ja der gleiche wert)
    
    Aber ehrlich gesagt würde ich mich wundern wenn es schneller sein würde. Eigentlich zeigen deine tests ja deutlich das es nicht an der CPU liegt sondern am I/O. ein simples <FH> also zeile für zeile fetchen ist zu ineffektiv, mit deinem buffer wird es schneller da mehr auf einmal eingelesen wird. Bei deiner letzten lösungen macht Forken einfach einen Overhead, und I/O wird anscheind sowieso schon vollkommen ausgereizt.
    
    Meine CPU:
    Intel Core 2 Duo @ 2 x 3.0Ghz
    
    EDIT:
    Diese 10x10 Pixel Editier Box treibt mich zum wahnsinn!!!
    Last edited: 2009-05-12 01:53:43 +0200 (CEST)
    Nicht mehr aktiv. Bei Kontakt: ICQ: 404181669 E-Mail: perl@david-raab.de
    - +7 replies
    - topeg
      
      2009-05-12 06:55
      
      User since
      2006-07-10
      2611 Artikel
      BenutzerIn
      
      Das mit dem Geschwindigkeitsvorteil mit "forks" war wie gesagt nur eine Vermutung, wie es scheint wird jeglicher Vorteil durch den Overhead aufgefressen. Ein Test war es trotzdem wert.
      
      Du hast natürlich recht das das "/o" innerhalb der Schleife besser aufgehoben ist.
      
      Ich habe gerade noch etwas mit der "$chuncksize" gespielt und dabei festgestellt, dass ich bei mir die besten Ergebnisse mit
      
      Code (perl): (dl )
      
      $chuncksize=100*1024;
      
      (ungefähr zwischen 200*1024*1024 und 50*1024) bekomme, vermutlich liegt es daran, dass die RegexpEngine immer langsamer wird je länger der zu durchsuchende String ist. Wird er zu kurz fällt das Neustarten der Engine ins Gewicht und das Script wird wieder langsamer.
      
      EDIT:
      Das zweite Beispiel mit den von dir vorgeschlagenen Änderungen und der angepassten "chunksize":
      
      Quote
      >$ time ./bin/regexpfind2.pl
      anzahl treffer: 1010759
      
      real 0m1.233s
      user 0m0.828s
      sys 0m0.392s
      
      Mehr ist bei meinem System scheinbar nicht zu wollen. :-)
      
      EDIT2:
      Für alle die es interessiert ein Durchlauf mit grep:
      
      Quote
      >$ time grep -ic -- "--TEST--" test.random.txt
      922896
      
      real 0m0.784s
      user 0m0.424s
      sys 0m0.312s
      
      Last edited: 2009-05-12 07:15:34 +0200 (CEST)
      - +5 replies
      - sid burn
        
        2009-05-12 10:43
        
        User since
        2006-03-29
        1520 Artikel
        BenutzerIn
        
        Obwohl man hier sagen muss das man die eigentliche Aufgabe schon nicht mehr benchmarkt. Zum Beispiel habe ich keine festplatten die eine 200MiB Datei in unter 1 sekunde einlesen kann.
        
        Daher benchmarken wir hier wirklich nur CPU und RAM. Sollte eine Datei zum Beispiel nur einmalig am Tag durchgearbeitet werden, oder generell nur einmal hat man diesem cache aber nichts mehr.
        
        Von daher sind die Benchmark selber evtl. total sinnlos. Und eine langsamere Implementierung, z.b. mit <> wäre genau so schnell. Ohne den Rechner aber immer wieder neu zu starten wüste ich nicht wie man den Cache innerhlab von Linux löscht.
        
        Meine Festplatten kommen so auf 70-80MiB/sec lesespeed. also bei 2.5 sekunden dürfte eigentlich das maximum liegen, ohne das eine Datei vorher gecached wurde.
        Nicht mehr aktiv. Bei Kontakt: ICQ: 404181669 E-Mail: perl@david-raab.de
        
        pq
        
        2009-05-12 10:46
        
        User since
        2003-08-04
        12209 Artikel
        Admin1
        
        2009-05-12T08:43:01 sid burn
        Daher benchmarken wir hier wirklich nur CPU und RAM.
        
        und wie erklärst du dir dann eine umkehrung der schnelligkeit? also dass auf einem system perl und auf dem anderen java schneller ist?
        Always code as if the guy who ends up maintaining your code will be a violent psychopath who knows where you live. -- Damian Conway in "Perl Best Practices"
        lesen: Wie frage ich & perlintro brian's Leitfaden für jedes Perl-Problem
        
        +3 replies
        
        topeg
        
        2009-05-12 11:20
        
        User since
        2006-07-10
        2611 Artikel
        BenutzerIn
        
        Quote
        >$ su root
        Passwort:
        ># sync && echo 3 > /proc/sys/vm/drop_caches
        ># exit
        exit
        >$ time ./bin/regexpfind2.pl
        anzahl treffer: 1010759
        
        real 0m4.104s
        user 0m0.892s
        sys 0m0.456s
        >$ time ./bin/regexpfind2.pl
        anzahl treffer: 1010759
        
        real 0m1.251s
        user 0m0.912s
        sys 0m0.312s
        >$
        
        Man kann sehen das holen von der Festpatte dauert ~2,9 Sekunden, das macht zumindest bei mir ~70MB/s
        Last edited: 2009-05-12 11:29:35 +0200 (CEST)
        
        +2 replies
        
        Gast tradizione
        
        2009-05-13 09:09
        
        Ich bin etwas verunsichert.
        Hier steht, dass
        
        Code: (dl )
        
        echo 3 > /proc/sys/vm/drop_caches
        
        nicht ausreicht.
        
        http://aplawrence.com/Linux/buffer_cache.html
        
        Gast wer
        
        2009-05-13 11:18
        
        Hier schon. Da nur der Readbuffer gelehrt werden sollte und es nur um eine Datei ging, die zu dem Zeitpunkt nicht geöffnet war,
        Darum wurde sie mit Sicherheit aus dem Puffer entfernt.
        
        Topeg's Test zeigt das ja auch.
      - nomoresecrets
        
        2009-05-13 10:26
        
        User since
        2009-05-11
        8 Artikel
        BenutzerIn
        
        aktueller Stand:
        
        forks/threads bringen leider gar nix, wird nur langsamer dadurch
        
        Java habe ich nicht großartig weiter getestet, nach 1-2 Tests der Java-Regex-Maschinerie is das keine wirkliche Alternative zu Perl mit seiner Regex-Api
        
        ich hab mal über nacht mit unterschiedlichen chunksizes gebenchmarkt, und bei mir zu Haus war 250*1024 das schnellste
        
        und gegenüber der ursprünglichen variante mit zeilenweisen Einlesen eine echte Offenbarung was Performance angeht.
        
        Vielen Dank dafür!
        
        jetzt muss ich nur noch die reinpurzelnden chunks gescheit analysieren lernen

View all threads created 2009-05-11 17:16.