Hilfe für Regex (Allgemeines zu Perl)

[thread]16605[/thread]

Hilfe für Regex

Tags: perl5 regex Ähnliche Threads

Leser: 28

Articles: hide open all | hide show old branches

+22 replies
lousek

2011-08-06 17:24

User since
2011-01-19
28 Artikel
BenutzerIn

Hallo Perler

Ich habe ein kleines Problem mit einem Regex in Perl, sicher nichts wahnsinniges, aber ich krieg es einfach nicht :(

Also, ich will einen String überprüfen, ob er entweder mit +/ oder mit -/ startet. Der String kann wie folgt starten:
--
++
@@
/
+/
-/

... oder einfach ein String aus Leerzeichen.
Von diesen Möglichkeiten will ich wie bereits oben gesagt nur diejenigen, welche mit +/ oder -/ starten. Mein Regex sieht bis jetzt so aus:
=~ m/^(+|-)\//

Jetzt ist aber das Problem, das + ein "Sonderzeichen" ist im Regex ... wenn ich aber zum "escapen" \Q einfüge vor dem +, so kommt auch nur Müll raus ..,

Ich bin dankbar für jede Hilfe :)

LG
lousek
- Gast wer
  
  2011-08-06 17:29
  
  /^(?:\+|\-)\//
  /^(?:\Q+\E|\Q-\E)\//
  /^[+\-]\//
  andere regex-begrenzung:
  m!^(?:\+|\-)/!
  m!^(?:\Q+\E|\Q-\E)/!
  m!^[+\-]/!
  Last edited: 2011-08-06 17:31:10 +0200 (CEST)
- +20 replies
- FIFO
  
  2011-08-06 17:32
  
  User since
  2005-06-01
  469 Artikel
  BenutzerIn
  
  $string =~ m{^(\+|-)/}
  
  Editiert von FIFO: zu langsam ...
  Last edited: 2011-08-06 17:34:16 +0200 (CEST)
  Everyone knows that debugging is twice as hard as writing a program in the first place. So if you're as clever as you can be when you write it, how will you ever debug it? -- Brian Kernighan: "The Elements of Programming Style"
  - +19 replies
  - lousek
    
    2011-08-06 17:47
    User since
    2011-01-19
    28 Artikel
    BenutzerIn
    
    Ich danke euch beiden!
    
    Irgendwie steh ich immernoch auf dem Schlauch, oder aber etwas anderes ist falsch:
    
    Code: (dl )
    
    1 2
    
    use Text::Diff; my $diff = diff ("test.txt", "test2.txt", { OUTPUT => sub { my $item = shift; if ($item =~ m{^(\+|-)/}) { push @output, $item } } } );
    
    Code: (dl )
    
    1 2
    
    use Text::Diff; my $diff = diff ("test.txt", "test2.txt", { OUTPUT => sub { my $item = shift; if ($item =~ m/^(?:\+|\-)\//) { push @output, $item } } } );
    
    Leider klappt beides nicht :(
    Wenn ich es aber mit m/^.\// versuche, so werden schön alle strings mit " /", +/ und -/ ins Array geschrieben (plus die leeren Strings???)
    
    Ist das diff kaputt? :P
    
    LG
    lousek
    - +18 replies
    - lousek
      
      2011-08-06 22:12
      
      User since
      2011-01-19
      28 Artikel
      BenutzerIn
      
      So, ich bin dem "Problem" auf der Spur:
      
      Ich habe das Ganze nun mal umgeschrieben:
      
      Code: (dl )
      
      1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32
      
      #!/usr/bin/perl use strict; use Text::Diff; my @output; my @db; my @fs; my $diff = diff ("test.txt", "test2.txt", { OUTPUT => \@output } ); print $output[0]; #while (@output) { # my $item = shift(@output); # if ($item =~ m/^\+\//) { # $item =~ s/^\+\///; # print $item; # push (@db, $item); # } elsif ($item =~ m/^-\//) { # $item =~ s/^-\///; # push (@fs, $item); # } #} foreach my $dbitem (@db) { print $dbitem; } foreach my $fsitem (@fs) { print $fsitem; }
      
      Nun ist die Ausgabe des Text::Diff-Modules das Problem:
      $output[0]:
      
      Code: (dl )
      
      1 2
      
      --- test.txt Sat Aug 6 16:23:57 2011 +++ test2.txt Sat Aug 6 16:22:59 2011
      
      @output[1]:
      
      Code: (dl )
      
      @@ -15,7 +15,16 @@
      
      @output[2]:
      
      Code: (dl )
      
      1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
      
      /ho /ho /ho -/ho +/ho +/ho +/ho +/ho +/ho +/ho +/ho +/ho +/ho +/ho /ho /ho /ho
      
      Somit ist nicht jedes Element des Arrays eine Zeile, sondern je nachdem ist ein Element mehrere Zeilen lang. Da diese Zeilen immer mit " /" anfangen und die Zeilen mit +/ und -/ nie zu Beginn eines Elementes stehen, liefert der Regex m/^ \// natürlich alle drei Varianten, wobei der Regex m/^\+\// und m/^-\// nichts zurückliefern.
      
      Mir ist dieses Ausgabeformat etwas rätselhaft; falls jemand dazu Tipps hat, immer her damit :)
      
      LG
      lousek
      - +2 replies
      - topeg
        
        2011-08-06 22:23
        
        User since
        2006-07-10
        2611 Artikel
        BenutzerIn
        
        Dein Problem ist, das in $item nicht eine Zeile steht sondern mehrere Zeilen.
        Macht mal das:
        
        Code (perl): (dl )
        
        1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
        
        #!/usr/bin/perl use strict; use warnings; use Text::Diff; use Data::Dumper; my @output; my $diff = diff ("test.txt","test2.txt", { OUTPUT => sub { my $item = shift; for(split(/\n/,$item)) { push(@output, $_) if(m!^[+-]/!); } }}); print Dumper($diff,\@output);
        
        lousek
        
        2011-08-06 23:04
        
        User since
        2011-01-19
        28 Artikel
        BenutzerIn
        
        Sali topeg
        
        Genau so hatte ich das vermutet (mit dem \n ...).
        
        Ich habe es jetzt mal so angepasst (eigentlich brauche ich zwei Arrays, eins mit den -/ und eins mit den +/:)
        
        Code: (dl )
        
        1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
        
        #!/usr/bin/perl use strict; use Text::Diff; my @db; my @fs; my $diff = diff ("test.txt","test2.txt", { OUTPUT => sub { my $item = shift; for(split(/\n/,$item)) { if (m!^\+/!) { push(@db, $_); } elsif (m!^-/!) { push(@fs, $_); } } }}); foreach my $dbitem (@db) { print $dbitem."\n"; } foreach my $fsitem (@fs) { print $fsitem."\n"; }
        
        So funktioniert es jetzt wunderbar :)
        
        Vielen Dank für eure Hilfe!
        
        LG
        lousek
      - +15 replies
      - Dubu
        
        2011-08-08 01:30
        
        User since
        2003-08-04
        2145 Artikel
        ModeratorIn + EditorIn
        
        Warum benutzt du nicht direkt Algorithm::Diff? Text::Diff ist ja nur ein Wrapper um Algorithm::Diff, der die von diff(1) gewohnte Ausgabe mit '+' und '-' davor erzeugt. Wenn du ohnehin nur die hinzugefügten und weggefallenen Zeilen willst, kann Algorithm::Diff die direkt liefern.
        
        Außerdem ist es vielleicht sinnvoll, mit Tie::File zu arbeiten, wenn die Dateien sehr groß werden können, so müssen sie nicht im Speicher gehalten werden.
        
        Code (perl): (dl )
        
        1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27
        
        #!/usr/bin/perl use strict; use warnings; use Algorithm::Diff; use Tie::File; tie my @x, "Tie::File", $ARGV[0] or die $!; tie my @y, "Tie::File", $ARGV[1] or die $!; my $diff = Algorithm::Diff->new(\@x,\@y); my (@db, @fs); while ($diff->Next()) { next if $diff->Same(); push @db, $diff->Items(2); # hinzugekommen push @fs, $diff->Items(1); # weggefallen } foreach my $dbitem (@db) { print $dbitem, "\n"; } foreach my $fsitem (@fs) { print $fsitem, "\n"; }
        
        +14 replies
        
        topeg
        
        2011-08-08 03:30
        
        User since
        2006-07-10
        2611 Artikel
        BenutzerIn
        
        Er arbeitet mit Verzeichnispfaden soweit ich es sehe.
        
        also:
        
        Code (perl): (dl )
        
        1 2 3 4 5
        
        while ($diff->Next()) { next if $diff->Same(); push @db, grep{ substr($_,0,1) eq '/' }$diff->Items(2); # hinzugekommen push @fs, grep{ substr($_,0,1) eq '/' }$diff->Items(1); # weggefallen }
        
        Und wo wir gerade von alternativen reden, Wenn es wirklich Verzeichnisse sind, ist es besser einen Hash zum vergleichen zu benutzen, denn ich wäre mir nicht sicher, ob die Pfade immer an der selben Stelle stehen. Selbst wenn man die Liste vorher sortiert, kann es sein, dass es falsche Funde gibt.
        Das wäre diesbezüglich mein Vorschlag.
        
        Code (perl): (dl )
        
        1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31
        
        #!/usr/bin/perl use strict; use warnings; use Tie::File; tie my @x, "Tie::File", $ARGV[0] or die $!; tie my @y, "Tie::File", $ARGV[1] or die $!; my %diff; for(@x) { $diff{$_}{x}++ if(substr($_,0,1) eq '/'); } for(@y) { $diff{$_}{y}++ if(substr($_,0,1) eq '/'); } my (@db, @fs); for my $path (sort keys(%diff)) { my $elm=$diff{$path}; next if($elm->{x} && $elm->{y}) push(@db,$path) if($elm->{x}); push(@fs,$path) if($elm->{y}); } foreach my $dbitem (@db) { print $dbitem, "\n"; } foreach my $fsitem (@fs) { print $fsitem, "\n"; }
        
        +13 replies
        
        Dubu
        
        2011-08-08 13:51
        
        User since
        2003-08-04
        2145 Artikel
        ModeratorIn + EditorIn
        
        2011-08-08T01:30:38 topeg
        Er arbeitet mit Verzeichnispfaden soweit ich es sehe.
        
        Sehe ich auch so. Aus der Beschreibung, welche Zeilen vorkommen können, habe ich aber geschlossen, dass alle Zeilen, die nicht von Text::Diff selber kommen (+++, ---, @@), Pfade enthalten (+/, -/, " /"). Deshalb hatte ich keinen Filter darauf eingebaut.
        
        Quote
        Und wo wir gerade von alternativen reden, Wenn es wirklich Verzeichnisse sind, ist es besser einen Hash zum vergleichen zu benutzen, denn ich wäre mir nicht sicher, ob die Pfade immer an der selben Stelle stehen. Selbst wenn man die Liste vorher sortiert, kann es sein, dass es falsche Funde gibt.
        
        Ja, daran hatte ich auch gedacht. Dafür gibt es auch schicke CPAN-Module, z.B. Set::Scalar:
        
        Code (perl): (dl )
        
        1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
        
        #!/usr/bin/perl use strict; use warnings; use Set::Scalar; use Tie::File; tie my @x, "Tie::File", $ARGV[0] or die $!; tie my @y, "Tie::File", $ARGV[1] or die $!; my $vorher = Set::Scalar->new(@x); my $nachher = Set::Scalar->new(@y); my @db = $nachher->difference($vorher)->members; # hinzugekommen my @fs = $vorher->difference($nachher)->members; # weggefallen foreach my $dbitem (@db) { print "> ", $dbitem, "\n"; } foreach my $fsitem (@fs) { print "< ", $fsitem, "\n"; }
        
        Die Reihenfolge geht dabei aber auch flöten.
        
        +12 replies
        
        lousek
        
        2011-08-08 20:04
        
        User since
        2011-01-19
        28 Artikel
        BenutzerIn
        
        Hallo ihr beide
        
        Zuerst mal ein grosses Dankeschön!!!
        Wirklich super, die Hilfe hier :)
        
        Zuerst mal eine kurze Frage zu Dubu's Script - 1. ist mir nicht hunderprozentig klar, was Set::Scalar ist, die Doku sagt dazu nur "basic set operations"; 2. was ist der unterschied zwischen difference und unique resp warum verwendest du nicht unique?
        
        Code: (dl )
        
        1 2 3
        
        $a->difference($b, $c) (a b) $a->symmetric_difference($b, $c) (a b e h i) $a->unique($b, $c) (a b h i)
        
        Das unique hier scheint nicht wie das uniq vom linux commando zu sein, wo Zeilen, welche in beiden vorkommen, entfernt werden.
        
        Genau, schlussendlich sind es Dateipfade.
        Vielleicht erinnert sich topeg noch an den Thread hier: http://www.perl-community.de/bat/poard/thread/1600...
        Ich wollte dort eigentlich nicht den ganzen Thread neu aufrollen, da der Titel auch "Ordnerstruktur in der DB abbilden" ist, und nicht die Differenz. Dann hatte ich es eben mit dem diffen versucht, und darum habe ich diesen Thread aufgemacht.
        
        Nun hatte ich die "geniale" Idee, dass ich die Zeilen zum diffen wie folgt zusammensetze:
        /dies/ist/der/pfad;inode;mtime;ctime
        
        Ich war dann soweit, dass es "fast" geklappt hat; den SELECT aus der Datenbank (SELECT path, ino, mtime, ctime FROM dir;) habe ich so formatiert und in das eine Array eingelesen. Für die Einträge vom Dateisystem habe ich mittels stat() die Infos ausgelesen und dann ebenfalls so formatiert und in ein Array eingelesen.
        Dann habe ich die beiden Arrays verglichen, und dann die übrig gebliebenen Items auseinander genommen und geschaut, ob sich evt. nur die mtime oder ctime geändert hat.
        Es hat bis auf das von topeg genannte Problem mit den falschen Funden perfekt funktioniert; sprich es hat einen Pfad sowohl in "DB only" wie auch in "FS only" angezeigt, da er beim Array der DB am Ende stand, und beim Array vom FS irgendwo in der Mitte.
        
        So, nun wieder zum Code :)
        
        "tie" erübrigt sich also für mich, wenn ich das richtig sehe, aber ich werde es sicher in Zukunft mal brauchen können :)
        
        Das Beispiel von Dubu sieht sehr simpel aber effizient aus (oder einfach besonders einfach für einen Perl-DAU wie mich :))
        Aber könnte ich nicht einfach gerade schreiben:
        
        Code: (dl )
        
        1 2
        
        my @db = $nachher->unique($vorher)->members; my @fs = $vorher->unique($nachher)->members;
        
        Jetzt ist natürlich wieder die Frage, was unique genau macht ...
        
        Ich teste und suche mal weiter :)
        
        LG
        lousek
        
        +2 replies
        
        Dubu
        
        2011-08-09 00:05
        
        User since
        2003-08-04
        2145 Artikel
        ModeratorIn + EditorIn
        
        2011-08-08T18:04:09 lousek
        1. ist mir nicht hunderprozentig klar, was Set::Scalar ist, die Doku sagt dazu nur "basic set operations";
        
        Genau das ist es. So eine Art "Mengenlehre", wobei die Mengen aus skalaren Werten bestehen: Vereinigungsmengen (union), Schnittmengen (intersection), Restmengen (difference) und so weiter.
        
        Quote
        2. was ist der unterschied zwischen difference und unique resp warum verwendest du nicht unique?
        
        Code: (dl )
        
        1 2 3
        
        $a->difference($b, $c) (a b) $a->symmetric_difference($b, $c) (a b e h i) $a->unique($b, $c) (a b h i)
        
        Du zeigst hier gerade die komplexeren Beispiele mit drei Mengen. Für deine Anwendung reichen ja zwei Mengen, daher beschränke ich mich darauf.
        Ein $a->difference($b) bedeutet soviel wie "alle Elemente von $a außer denen, die auch in $b sind".
        
        Quote
        Das unique hier scheint nicht wie das uniq vom linux commando zu sein, wo Zeilen, welche in beiden vorkommen, entfernt werden.
        
        Doch, genau das ist es. Mit zwei Mengen: $a->unique($b) sind alle Elemente, die in $a, aber nicht in $b sind, vereinigt mit allen Elementen, die in $b, aber nicht in $a sind. $a->unique($b) ist also die Vereinigung von $a->difference($b) und $b->difference($a). Damit ist auch klar, dass $a->unique($b) identisch ist mit $b->unique($a). Du wolltest aber, wenn ich das richtig sehe, die beiden Differenzen getrennt haben in @db und @fs, und nicht beide zusammengeworfen.
        
        Dank Überladen von Operatoren in Set::Scalar kann man die Differenzen auch als $a - $b bzw. $b - $a schreiben. Ich finde die Methoden-Schreibweise aber etwas verständlicher.
        
        Quote
        [...] "tie" erübrigt sich also für mich, wenn ich das richtig sehe, aber ich werde es sicher in Zukunft mal brauchen können :)
        
        Wenn du die Daten ohnehin schon in Arrays hast, brauchst du kein tie, richtig. Dann geht es auch schneller.
        
        Quote
        Das Beispiel von Dubu sieht sehr simpel aber effizient aus (oder einfach besonders einfach für einen Perl-DAU wie mich :))
        Aber könnte ich nicht einfach gerade schreiben:
        
        Code: (dl )
        
        1 2
        
        my @db = $nachher->unique($vorher)->members; my @fs = $vorher->unique($nachher)->members;
        
        Wie oben schon gesagt: die beiden Ergebnisse wären gleich.
        
        lousek
        
        2011-08-09 10:11
        
        User since
        2011-01-19
        28 Artikel
        BenutzerIn
        
        Guten Morgen
        
        Hui, danke vielmals für die Erklärung :)
        Es scheint so, als würde mein Script recht gut funktionieren (mit ->difference - gestern noch kurz rumprobiert), sobald ich zu Hause bin, werde ich es mal posten :)
        Vorwarnung: Es ist nicht sehr schön programmiert
        
        LG
        lousek
        
        +9 replies
        
        lousek
        
        2011-08-09 23:36
        
        User since
        2011-01-19
        28 Artikel
        BenutzerIn
        
        Guten Abend
        
        So, nun nachfolgend mein Script.
        Wie auch als Kommentar beschrieben, ist besonders der Teil mit Einfügen / Aktualisieren / Löschen in der Datenbank noch recht hässlich programmiert. Ich nehme das zumindest an, wenn ich sehe, wie effizient man in Perl programmieren kann (oder könnte ...)
        
        Code: (dl )
        
        1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221
        
        #!/usr/bin/perl # Define options use strict; use warnings; # Define used modules use Text::Diff; use DBI; use File::Find; use Set::Scalar; # Define variables my $db; my $user; my $pass; my $host; my $query; my $sth; my $dbh; my $stime; my $etime; my $endtime; my $stime_tmp; my $etime_tmp; my $endtime_tmp; my @db; my @fs; my @only_db; my @only_fs; # DB data $db = "ofrs"; $user = "ofrs"; $pass = "ofrs"; $host = "localhost"; # Connect to DB $dbh = DBI->connect("DBI:mysql:$db:$host", $user, $pass); # Set start time $stime = time; # Set query $query = "SELECT id,path FROM repdir;"; # Run query my $sth1 = $dbh->prepare($query); $sth1->execute(); # Read query results into array @db while (my @result = $sth1->fetchrow_array) { checkRepDir($result[0], $result[1]); } # Set end time $etime = time; # Calculate used time $endtime = ($etime - $stime); # Print needed time print "Total duration: $endtime sec\n"; ########## Functions ########## # compares a file tree from the file system with the path entries from the database. Adds paths, which are only on the filesystem to the database, updates changed paths in the database, remove missing paths from the database. sub checkRepDir { # Define variables my @insert_db; my @update_db; my @delete_db; # Set variables my $repdir_id = $_[0]; my $repdir_path = $_[1]; print "Running check for replication directory $repdir_path with ID $repdir_id ...\n"; ### Getting database paths ### # Set query $query = "SELECT path,ino,mtime,ctime FROM dir WHERE repdir_id = $repdir_id;"; print "Running DB query ... "; $stime_tmp = time; # Run query $sth = $dbh->prepare($query); $sth->execute(); # Read query results into array @db while (my @result = $sth->fetchrow_array) { push(@db,$result[0].";".$result[1].";".$result[2].";".$result[3]."\n"); } $etime_tmp = time; $endtime_tmp = ($etime_tmp - $stime_tmp); print scalar(@db)." paths found! Duration: $endtime_tmp sec\n"; ### Getting filesystem paths ### print "Searching filesystem ... "; $stime_tmp = time; # Search file system File::Find::find({wanted => sub{wanted();}, "no_chdir" => 0}, $repdir_path); # read paths from filesystem into array @fs sub wanted{ if (-d $File::Find::name) { my ($dev,$ino,$mode,$nlink,$uid,$gid,$rdev,$size,$atime,$mtime,$ctime,$blksize,$blocks) = stat($File::Find::name); push(@fs,$File::Find::name.";".$ino.";".$mtime.";".$ctime."\n"); } } $etime_tmp = time; $endtime_tmp = ($etime_tmp - $stime_tmp); print scalar(@fs)." paths found! Duration: $endtime_tmp sec\n"; ### Find the added, updated and deleted paths ### print "Comparing results ... "; $stime_tmp = time; my $temp1 = Set::Scalar->new(@db); my $temp2 = Set::Scalar->new(@fs); @only_db = $temp1->difference($temp2)->members; @only_fs = $temp2->difference($temp1)->members; $etime_tmp = time; $endtime_tmp = ($etime_tmp - $stime_tmp); print scalar(@only_fs)." paths only on FS! ".scalar(@only_db)." paths only in DB! Duration: $endtime_tmp sec\n"; ### Updating the database with the newest information ### !!!A big mess at the moment, I will try to clean that up in the next step ...!!! print "Updating database ... \n"; $stime_tmp = time; $query = ""; foreach my $item_fs (@only_fs) { # Split up the parts of the line from the filesystem into path, ino, mtime, ctime my @parts_fs = split(/;/, $item_fs); # If there are any items in @only_db, check if some lines have just a changed mtime or ctime, but not a new path. If @only_db contains no elements, then just add the path to the database. if (@only_db > 0) { foreach my $item_db (@only_db) { # Split up the parts of the line from the database into path, ino, mtime, ctime my @parts_db = split(/;/, $item_db); # Check if the path and the inode from the filesystem-item and the database-item is the same. If yes, only the mtime or ctime has changed, so only update the database. If no, the path is really new, so just insert it into the database if (($parts_fs[0] eq $parts_db[0]) && ($parts_fs[1] eq $parts_db[1])) { # Path and inode is the same, only mtime or ctime has changed $query = "UPDATE `ofrs`.`dir` SET `mtime` = '$parts_fs[2]' , `ctime` = '$parts_fs[3]' WHERE `repdir_id` = '$repdir_id' AND `path` = '$parts_fs[0]' AND `ino` = '$parts_fs[1]'; "; last; } else { # Path and/or inode is not the same, so this is a complete new entry $query = "INSERT INTO `ofrs`.`dir` (`id` , `repdir_id` , `path` , `ino` , `mtime` , `ctime`) VALUES (NULL , '$repdir_id' , '$parts_fs[0]' , '$parts_fs[1]' , '$parts_fs[2]' , '$parts_fs[3]'); "; } } } else { $query = "INSERT INTO `ofrs`.`dir` (`id` , `repdir_id` , `path` , `ino` , `mtime` , `ctime`) VALUES (NULL , '$repdir_id' , '$parts_fs[0]' , '$parts_fs[1]' , '$parts_fs[2]' , '$parts_fs[3]'); "; } # Run query $sth = $dbh->prepare($query); $sth->execute(); } while (@only_db) { # Split up the parts of the line from the database into path, ino, mtime, ctime my @parts_db = split(/;/, shift(@only_db)); # If there are any items in @only_fs, check if the database-item was just updated (in the previous foreach-section), or if the database-item must be completly removed if (@only_fs > 0) { foreach my $item_fs (@only_fs) { my @parts_fs = split(/;/, $item_fs); if (($parts_db[0] eq $parts_fs[0]) && ($parts_db[1] eq $parts_db[1])) { # Do nothing, already updated in the previous foreach-section $query = ""; last; } else { # Path does not exist anymore on the filesystem, so delete it from the database $query = "DELETE FROM `ofrs`.`dir` WHERE `path` = '$parts_db[0]' AND `ino` = '$parts_db[1]';"; } } } else { # Path does not exist anymore on the filesystem, so delete it $query = "DELETE FROM `ofrs`.`dir` WHERE `path` = '$parts_db[0]' AND `ino` = $parts_db[1]';"; } if ($query ne "") { # Run query $sth = $dbh->prepare($query); $sth->execute(); } } $etime_tmp = time; $endtime_tmp = ($etime_tmp - $stime_tmp); print scalar(@only_fs)." paths inserted! Duration: $endtime_tmp sec\n"; # Empty arrays undef @fs; undef @db; undef @only_fs; undef @only_db; }
        
        Übrigens, zwei Perl-Bücher sind auf dem Weg zu mir, dann wird mein Stil mit der Zeit hoffentlich etwas besser :)
        
        LG
        lousek
        
        +8 replies
        
        topeg
        
        2011-08-10 06:19
        
        User since
        2006-07-10
        2611 Artikel
        BenutzerIn
        
        An sich ist das schon recht ordentlich. Abgesehen, von der fehlenden Übung, was das konstruieren von Programmstrukturen betrifft.
        
        Nur du brauchst Variablen nicht am Anfang zu definieren, Das kannst du machen, wenn du sie verwenden willst. Damit stellst du auch sicher, dass sie nicht zu großen Gültigkeitsbereich haben. Du machst sehr viele unnötige Datenbankzugriffe, so wie du die DB nutzt kannst du auch eine Datei verwenden. Nutze die Vorzüge. Wenn du mit dem einrücken sparsam bist, dann markiere wo ein Block endet. (z.B. } # END checkRepDir) oder rücke alles ordentlich ein. Ansonsten kann man leicht den Überblick verlieren.
        Funktionen erleichtern die Übersicht. Riesige Funktionen machen das Programm unübersichtlich.
        
        Hier ein Beispiel wie man es machen kann:
        (Ich habe es für PostregsQL geschrieben, aber die Abfragen sollten sich leicht anpassen lassen)
        more (53.1kb)
        
        +5 replies
        
        pq
        
        2011-08-10 09:24
        
        User since
        2003-08-04
        12209 Artikel
        Admin1
        
        vielleicht möchtest du dir auch mal SQL::Abstract ansehen =)
        Always code as if the guy who ends up maintaining your code will be a violent psychopath who knows where you live. -- Damian Conway in "Perl Best Practices"
        lesen: Wie frage ich & perlintro brian's Leitfaden für jedes Perl-Problem
        
        +3 replies
        
        lousek
        
        2011-08-10 10:46
        
        User since
        2011-01-19
        28 Artikel
        BenutzerIn
        
        Sali pq
        
        Werde ich gerne mal machen :)
        
        Im Allgemeinen habe ich wohl recht mühe, die richtigen Module auf CPAN zu finden.
        Selbst mit Google finde ich meistens nicht die "perfekt" passenden Module, sondern nur "halbwegs" passende, worauf ich mich dann in irgendwelchen komischen Programmierdingen verstricke.
        Sobald ich dann hier im Forum frage, werde ich auf die "perfekt" passenden Module hingewiesen, was natürlich Sinn macht.
        
        Gibt es irgend eine brauchbare "Methode", damit ich mehr oder weniger die richtigen Module schnell finde, oder ist dies einfach Erfahrung? :)
        
        LG
        lousek
        
        +2 replies
        
        pq
        
        2011-08-10 11:00
        
        User since
        2003-08-04
        12209 Artikel
        Admin1
        
        ich meinte eigentlich topeg damit...
        Always code as if the guy who ends up maintaining your code will be a violent psychopath who knows where you live. -- Damian Conway in "Perl Best Practices"
        lesen: Wie frage ich & perlintro brian's Leitfaden für jedes Perl-Problem
        
        lousek
        
        2011-08-10 11:08
        
        User since
        2011-01-19
        28 Artikel
        BenutzerIn
        
        habe mir noch fast gedacht, dass du ihn meinst :)
        
        topeg
        
        2011-08-10 14:57
        
        User since
        2006-07-10
        2611 Artikel
        BenutzerIn
        
        Hätte ich natürlich nutzen können. Das wäre dann aber sicher noch verwirrender für lousek geworden.
        
        +2 replies
        
        lousek
        
        2011-08-10 10:43
        
        User since
        2011-01-19
        28 Artikel
        BenutzerIn
        
        Sali topeg
        
        Zuerst mal vielen Dank für die investierte Zeit; ich hoffe, ich kann an der Perl Community irgendwann mein (hoffentlich dann grösseres) Wissen zurückgeben :)
        
        Genau, es ist wohl noch recht "unordentlich" :)
        Das mit den übergrossen Funktionen werde ich in Zukunft versuchen zu beherzigen ;)
        
        Bezüglich den unnötigen SQL-Abfragen:
        Eigentlich mache ich ja ein "genereller" SELECT (für die rep_dirs), dann pro rep_dir ein SELECT und dann für jedes neues Verzeichnis ein INSERT, für ein aktualisiertes ein UPDATE und für ein gelöschtes ein DELETE.
        Ich glaube, bei deinem Script habe ich noch nicht 100%ig verstanden, wie du die unnötigen SQL-Abfragen verhinderst :)
        
        Ich bin dein Script aufmerksam durchgegangen und versuche nun, alle restlichen "Unklarheiten" zu "erfragen" :)
        
        Und wenn ich nicht ganz verkehrt bin, hast du es nicht mit den directories, sondern mit den files gemacht, soweit bin ich zwar noch nicht, aber einen grossen Unterschied dürfte dies kaum machen :)
        
        Sehe ich das richtig, dass du sämtliche "direkte" Datenbankenfunktionen (sprich queries) als Referenzen(?) im Hash $sth_lst gespeichert hast?
        Warum genau hast du z.B. den prepare im delete_old und nicht einfach im sub delete_old_files "gespeichert"?
        
        So, nun zum "Ablauf":
        Als erstes wird bei allen Einträgen in der Tabelle dir der Status = 0 gesetzt, also auf "alt".
        Anschliessend wird mit File::Find für jedes file process_file aufgerufen.
        Hier sind mir ein paar Dinge nicht klar:
        - Die Funktion rel2abs konvertiert relative in absolute Pfade, aber $File::Find::Name würde ja schon den absoluten Pfad enthalten ... ?
        - Es wird mit return 0 unless (-f $path) erneut überprüft, ob die Datei existiert. Aber das wurde ja bereits vor dem Aufruf von process_file erledigt (return unless -f) ... ?
        
        Anschliessend wird überprüft ob der Pfad bereits in der DB steht. Aber wird hier nicht für jeden einzelnen Pfad einen eigenen SELECT gemacht?
        Dies wäre doch eben wieder nicht gerade so effizient ... ?
        Wenn der Pfad in der DB steht (defined($id)), so wird er aktualisiert wenn die atime, mtime, ctime, oder inode nicht übereinstimmt, ansonsten wird nur der status aktualisiert.
        Wenn der Pfad nicht in der DB steht, wird er "logischerweise" einfach eingefügt.
        Aber auch hier wird bei 50'000 files für jedes file ein SQL-Update oder -Insert Statement gemacht ... (?)
        
        Der letzte Teil ist wieder klar:
        Alle Einträge in der DB, welche verwaist sind (status = 0), werden gelöscht.
        
        Bei mir werden doch viel weniger SQL-Queries benötigt?
        Oder kann es sein, dass ich (trotz nachschauen auf CPAN) das mit dem begin_working() und commit() nicht ganz verstanden habe? :)
        
        So, nochmals vielen Dank :)
        
        LG
        lousek
        
        topeg
        
        2011-08-10 14:56
        
        User since
        2006-07-10
        2611 Artikel
        BenutzerIn
        
        2011-08-10T08:43:50 lousek
        Bezüglich den unnötigen SQL-Abfragen:
        Eigentlich mache ich ja ein "genereller" SELECT (für die rep_dirs), dann pro rep_dir ein SELECT und dann für jedes neues Verzeichnis ein INSERT, für ein aktualisiertes ein UPDATE und für ein gelöschtes ein DELETE.
        
        Zuerst holst du alle Einträge aus der DB und vergleichst sie mit den vorhanden Dateien dann gehst du alle Differenzen durch und fügst/änderst/löschst jede Datei einzeln.
        
        2011-08-10T08:43:50 lousek
        Sehe ich das richtig, dass du sämtliche "direkte" Datenbankenfunktionen (sprich queries) als Referenzen(?) im Hash $sth_lst gespeichert hast?
        Warum genau hast du z.B. den prepare im delete_old und nicht einfach im sub delete_old_files "gespeichert"?
        
        $dbh->prepare präpariert einen Datenbankabfrage. Sie wird analysiert bereinigt und an die DB gesendet. Das kostet zeit. Es ist bei vielen gleichen Aufrufen günstiger diese einmal zu erzeugen und dann immer wieder zu verwenden. Das ich es hier direkt am Anfang des Scripts gemacht habe liegt daran, dass ich kein Objekt benutzt habe um sie unterzubringen. Ich habe eine "Vorstufe" zu einem Objekt benutzt einen Hash, den ich an jede Funktion weiterreiche. Es fehlt nur noch ein kleiner Schritt um sämtliche Datenbankaktionen in einer Klasse zu bündeln und zu abstrahieren. Da du das sicher noch nicht kennst, hätte es dich noch mehr verwirrt, als es jetzt schon der Fall ist. :-)
        
        2011-08-10T08:43:50 lousek
        - Die Funktion rel2abs konvertiert relative in absolute Pfade, aber $File::Find::Name würde ja schon den absoluten Pfad enthalten ... ?
        
        Da kann man sich nicht immer sicher sein. Die Pfadangaben in rep_dirs können auch relativ sein. Dann gibt File::Find::find eine relative Angabe zurück. Darum schicke ich das nochmal durch File::Spec->rel2abs
        
        2011-08-10T08:43:50 lousek
        - Es wird mit return 0 unless (-f $path) erneut überprüft, ob die Datei existiert. Aber das wurde ja bereits vor dem Aufruf von process_file erledigt (return unless -f) ... ?
        
        Zwischen den beiden Überprüfungen ist etwas zeit vergangen (nicht viel aber ein wenig.) Zudem weiß ich ja nicht wie die Funktion aufgerufen irgendwann mal aufgerufen wird. Es ist eine reine Sicherheitsmaßnahme. Man darf ruhig ein wenig zu vorsichtig. Als ich mit Perl Anfing hätte ich die Überprüfung auch nicht gemacht, doch mit der Zeit lernt man dann so etwas das Programm robust macht. :-)
        
        2011-08-10T08:43:50 lousek
        Anschliessend wird überprüft ob der Pfad bereits in der DB steht. Aber wird hier nicht für jeden einzelnen Pfad einen eigenen SELECT gemacht?
        Dies wäre doch eben wieder nicht gerade so effizient ... ?
        Wenn der Pfad in der DB steht (defined($id)), so wird er aktualisiert wenn die atime, mtime, ctime, oder inode nicht übereinstimmt, ansonsten wird nur der status aktualisiert.
        Wenn der Pfad nicht in der DB steht, wird er "logischerweise" einfach eingefügt.
        
        Das stimmt, es werden alle Dateien geprüft. Du holst aber auch jeden Datensatz aus der DB nur alle auf einmal. Durch das einmalige Vorbereiten der Abfrage ist das nicht aufwändiger als bei dir.
        Das aufwändigste neben dem erzeugen des "Query-Handles" bei einer Abfrage ist das die Daten aus der DB in das Script geschaufelt werden müssen oder zurück. Das ist bei dir und mir identisch. Doch du hältst zudem alle Datensätze im Perlscript, was ich vermeide.
        
        2011-08-10T08:43:50 lousek
        Der letzte Teil ist wieder klar:
        Alle Einträge in der DB, welche verwaist sind (status = 0), werden gelöscht.
        
        Man könnte das ganze noch einfach erweitern, indem man geänderten Einträgen z.B den wert 3 zuweist und das später abfragt, damit bekommt man als dritten Wert alle geänderten Einträge. Dies lässt sich auch auf weitere Aktionen ausweiten.
        
        2011-08-10T08:43:50 lousek
        Bei mir werden doch viel weniger SQL-Queries benötigt?
        
        Insgesamt hast du sieben verschiedene Queries die du jedes mal neu initialisierst. Ich habe acht Queries, die ich einmal initialisiere.
        Aber du hast recht, meine erste Aussage diesbezüglich war nicht korrekt. Insgesamt machst du weniger Datenbankabfragen. Jedoch initialisierst du sie jedes mal neu, was etwas Zeit kostet.
        Zusammenfassend kann man sagen, du kopierst die komplette DB nach Perl und verarbeitest sie dort, ich mache so viel wie möglich in der DB. Was einen vorteil bringt kann nur ein direkter Vergleich zeigen. Aus meiner Erfahrung kann ich aber sagen, dass Datenbankaktionen, um einiges schneller sind als vergleichbare Aktionen in Perl. Der Rest ist Geschmackssache.
        
        Übrigens kann man eine Abfrage bei mir noch etwas beschleunigen indem man dem Query in $sth_lst{select_iamci_by_path} noch ein LIMIT 1 anhängt. Das verhindert unnötiges weiter suchen. Je nach Anzahl der Einträge ist das deutlich spürbar.
        
        2011-08-10T08:43:50 lousek
        Oder kann es sein, dass ich (trotz nachschauen auf CPAN) das mit dem begin_working() und commit() nicht ganz verstanden habe? :)
        
        Wenn AutoCommit aktiv ist, wird nach jeder Datenbank Aktion der aktuelle Zustand für alle anderen möglichen Nutzer zur Verfügung gestellt. das kostet immer etwas Zeit und kann auch für eine Inkonsistente DB sorgen. Wenn man nun mit begin_working und commit arbeitet man das dazwischen. Das beschleunigt die Aktionen ein wenig, da keine unnötigen Aufräumarbeiten gemacht werden. Alles andere ist erst mal nicht so wichtig, da nur ein Skript gleichzeitig läuft. Willst du auch verhindern das mehrere Scripte gleichzeitig eine Tabelle nutzen musst du sie für das eine Script Exklusiv sperren.
        
        Ich will es nochmal zusammenfassen.
        Für kleine Datenmengen sind beide Scripte gleich gut, denn es macht einen Unterschied ob 10% weniger Speicher belegt werden, oder ob eine Abfrage 10% schneller ist. Wenn die Anzahl der Einträge steigt werden diese Werte immer relevanter, da es einen unterschied macht ob ein Script 500 Sekunden für 500.000 Einträge braucht oder 50 Sekunden. Auch macht es einen unterschied beim Speicherverbrauch.
        Außerdem sollte man es sich immer zweimal überlegen, ob man großen Datenmengen dupliziert, und getrennt bearbeitet, denn eine spätere Synchronisation kann problematisch werden.

View all threads created 2011-08-06 17:24.