Ordnerstruktur in DB abbilden - evt. eigene DB (File) schreiben? (Datenbanken und Verzeichnisdienste) - Perl-Community.de

Start · Board · Anwendungen/Programme/Skripte in Perl · Datenbanken und Verzeichnisdienste

2025-04-05 07:05:46
Europe/Berlin
Einloggen (Registrieren)
- Einstellungen
- Statistics
Jemand zu Hause?
0 Benutzer online
7 Gäste

[thread]16002[/thread]

submit to reddit

Ordnerstruktur in DB abbilden - evt. eigene DB (File) schreiben?

Leser: 35

Articles: hide open all | hide show old branches

+35 replies
lousek

2011-02-24 00:10
User since
2011-01-19
28 Artikel
BenutzerIn
Hallo Forum

Sodeli, hier bin ich mal wieder mit einer Frage :-)
Vielleicht ist der Titel ein bisschen zu "grob" geschrieben ... ich will nicht einen eigenen MySQL-Server schreiben ;-)

Vieleicht vorneweg: Testsetup ist wie folgt:
HP ML330 (1x 1GHz CPU, 2.5 GB RAM) - Debian 5, Perl 5.10.0, MySQL 5.0.51a
VM auf ESXi (1x 3GHz CPU, 1GB RAM) - Debian 6, Perl 5.10.1, MySQL 5.1.49

Für ein kleines (bis jetzt Hobby-) Projekt will ich eine (hierarchische) Ordnerstruktur in einer Datenbank abbilden. Ich habe bereits Stunden mit Googeln und probieren verbracht, sonst würde ich hier nicht fragen!

Im Moment will ich eigentlich nur, dass das Script folgendes macht:
- Einen bestimmten Order nach allen Unterordner (und diese wieder nach Unterordner etc. -> rekusriv) absuchen
- Für jeden gefundenen Ordner prüfen, ob er in der Datenbank ist, wenn nicht, füge ihn hinzu

Schlussendlich will ich eigentlich sehen, welche Ordner in der Datenbank existieren, aber auf dem Dateisystem nicht und welche Ordner auf dem Dateisystem existieren aber in der Datenbank nicht.

Mittlerweile bin ich (mit Hilfe) auf die Idee gekommen, dass man zuerst die gesamte Datenbank auslesen und die Struktur in einem "Hash-Tree" (Hash of Hashes) abbilden könnte.

Danach kann man ja recht einfach prüfen, ob z.B. der Pfad /data/test1/ha1/blubb1 in der Datenbank resp. im Hash-Tree vorhanden ist:
Code: (dl )

1 2 3

if (defined ($hash{data}{test1}{ha1}{blubb1})) { print "Pfad existiert bereits in DB\n"; }
Ausserdem könnte man "gefundene" Einträge (also solche die sowohl auf dem Dateisystem wie auch im Hash-Tree existieren) aus dem Hash-Tree entfernen, was den Ressourcen-Verbrauch verrinngern würde, da der Hash-Tree immer kleiner würde. Dies hätte auch noch der Vorteil, dass man schlussendlich im Hash-Tree nur noch die Einträge hat, die auf dem Dateisystem nicht existieren (diese Einträge wurden aus dem Hash-Tree nicht entfernt, weil sie nicht überprüft wurden).

Nun, was ist überhaupt mein Problem?
Mein Problem ist, dass ich hier nicht nur von 100 oder 1'000 Ordnern rede, die ich in der Datenbank habe, sondern von 10'000, 100'000 oder sogar 1'000'000 ... auch wenn das letzte wohl in der Praxis weniger vorkommen wird. Bis jetzt habe ich immer versucht, die Daten in einer MySQL-DB (also relational) zu speichern, und dort die Hierarchie abzubilden.
Woran ich jetzt scheitere, ist die Performance wenn ich schon nur 80'000 Ordner in der DB habe.

Folgende "Modelle" habe ich probiert:
### Parent-Modell ###
- Ein Datensatz besteht aus ID, ParentID und name.
- Die Hierarchie wird über die ParentID "gebaut".

# Vorteil #
- Relativ einfache und leicht verständliche Struktur
- Es wird Platz gespart, da nur der Name (nicht den ganzen Pfad) gespeichert wird

# Nachteil #
- Seeeeehr langsam beim aufbauen des Baumes ...

### Pfad-Modell ###
- Jeder Datensatz besteht aus ID und pfad.

# Vorteil #
- Es kann einfach einen ganzen Pfad abgefragt werden
- Es kann einfach überprüft werden, ob ein Pfad bereits in der DB ist

# Nachteil #
- Der Aufbau des Baumes gestaltet sich eher schwierig, da in der Datenbank keine Hierarchie abgebildet ist
- Es wird viel Platz gebraucht, da immer der komplette Pfad gespeichert wird

### Nested Sets ###
- Jeder Datensatz besteht aus ID, name, lft und rgt
- Relation wird über lft und rgt hergestellt

# Vorteil #
- Schnelle und "einfache" Abfragen (meistens nur ein SQL-Statement)
- Platzsparend, da nicht der ganze Pfad gespeichert wird

# Nachteile #
- Relativ komplizierte Struktur
- Änderungen sind ressourcen-fressend, da sehr viele Datensätze angepasst werden müssen

Für die Nested-Sets habe ich dies hier gebraucht: http://www.klempert.de/nested_sets/#kap1
Dort hat es auch einen schönen Performance-Vergleich zwischen den 3 Modellen.

Nun habe ich testweise mit einem Script auf den beiden Servern Ordnerstrukturen mit bis zu 110'000 Ordner angelegt (ca. 3 - 4 Ebenen in der Breite und ca. 10 Ebenen in der Tiefe), wobei jeder Ordnernamen 9 - 10 Zeichen lang ist (also 10 Bytes).

Danach habe ich mit Scripts die Ordnerstruktur in die DB (MySQL) importiert. Dies ging auf beiden Servern für jedes der 3 Modelle recht fix.
Aber jetzt:
Auf dem zweiten Server (3GHz CPU) hat das Erstellen der Ordnerstruktur (resp. nur die Abfrage der Datenbank mit dem entsprechenen Statement, siehe unten) aus dem Nested Sets ganze 10 Minuten gebraucht für 80'000 Ordner.
Auf dem alten Server (1GHz CPU) hat es für 110'000 Ordner ganze 70 Minuten gedauert.
Über die beiden anderen Modelle (Parent- und Pfad-Modell) fange ich lieber gar nicht erst an ... das Parent-Modell war etwa um den Faktor 40 langsamer als das Nested Sets-Modell ... also hätte ich für die Berechnung mit 80'000 Ordner auf dem besseren Server ganze 400 Minuten (= 6.5 Stunden) gebraucht ...

Mittlerweile frage ich mich, ob eine relationale Datenbank wie MySQL der richtige Weg ist ...
In der Datenbank sollte eigentlich neben den Ordner auch noch die Files (also ich meine eigentlich auch nur "Verweise" darauf mit den Namen) sowie Config-Optionen und weitere Dinge gespeichert werden.

Nun, wäre evt. die Speicherung der Daten in einer hierarchischen Form in einer Datei vieleicht einfacher? Z.B. indem man den Hash-Tree via Data::Dumper in eine Datei schreibt, und diese dann wieder einliest? Eine relationale Datenbank wäre mir allerdings trotzdem irgendwie sympathischer ...

Eine weitere Idee, die mir gerade eingefallen ist, wäre folgende:
Anstatt dass ich aus der Datenbank heraus einen Hash-Tree generiere und diesen dann mit den Pfaden von der Ordnerstruktur vergleiche, könnte ich z.B. auch für jeden gefundenen Ordner ein SQL-Statement wie "Update z.B. den Zeitstempel in der DB, wenn der Ordner schon eingetragen ist, ansonsten füge ihn zusätzlich ein" (mit REPLACE oder INSERT IF NOT EXISTS???) durchführen. Vielleicht gibt es ja auch für UPDATE- oder REPLACE-Statements eine ähnliche Möglichkeit wie "$dbh->last_insert_id", also welche ID jetzt genau geupdated wurde, diese könnte man dann für die Child-Objekte weierverwenden: "Wenn ein Eintrag mit diesem Namen UND derselben ParentID existiert, update ihn, ansonsten füge ihn hinzu" ...

Wäre das vielleicht eine elegante Lösung?

Ich hoffe auf eure Hilfe und Danke jetzt schon für jeden investierten Schweisstropfen :-)
Lousek
- renee
  
  2011-02-24 08:42
  
  User since
  2003-08-04
  14371 Artikel
  ModeratorIn
  
  Musst Du es in einen solchen Hash mit vielen Ebenen umwandeln? Wie Du es am besten speicherst, hängt auch davon ab, was Du alles mit den Daten anstellen willst.
  
  Wenn Du einfach nur auf Existenz der Ordner überprüfen willst, brauchst ja gar nicht kompliziert zu speichern. Wenn Du die Daten aber noch für andere Aufgaben brauchst, musst Du eventuell "komplizierter" speichern.
  OTRS-Erweiterungen (http://feature-addons.de/)
  Frankfurt Perlmongers (http://frankfurt.pm/)
  --
  
  Unterlagen OTRS-Workshop 2012: http://otrs.perl-services.de/workshop.html
  Perl-Entwicklung: http://perl-services.de/
- moritz
  
  2011-02-24 11:26
  
  User since
  2007-05-11
  923 Artikel
  HausmeisterIn
  
  2011-02-23T23:10:51 lousek
  Mittlerweile frage ich mich, ob eine relationale Datenbank wie MySQL der richtige Weg ist ...
  
  Vermutlich nicht. Hierarchische Daten in RDBMS sind haeufig mit Schmerzen verbunden. Ja, es geht, aber nicht unbedingt gut.
  
  Bei Perl-Loesungen faellt mir DBM::Deep ein, bessere Performance wirst du vermutlich mit populaeren "NoSQL"-Loesungen wie hadoop oder couchdb bekommen... schau dich mal auf http://nosql-database.org/ um.
  Perl 6 - Perls Zukunft
- payx
  
  2011-02-24 13:04
  User since
  2006-05-04
  564 Artikel
  BenutzerIn
  Hallo Lousek,
  
  wenn ich es recht verstehe, geht es (zumindest unter anderem) darum, die History einer Verzeichnisstruktur zu protokollieren. Oder?
  
  Hierzu ist es m.E. nicht erforderlich, die Struktur hierarchisch zu speichern, sondern ich würde wohl zu dem Pfad-Modell neigen.
  
  2011-02-23T23:10:51 lousek
  ### Pfad-Modell ###
  - Jeder Datensatz besteht aus ID und pfad.
  
  # Vorteil #
  - Es kann einfach einen ganzen Pfad abgefragt werden
  - Es kann einfach überprüft werden, ob ein Pfad bereits in der DB ist
  
  # Nachteil #
  - Der Aufbau des Baumes gestaltet sich eher schwierig, da in der Datenbank keine Hierarchie abgebildet ist
  - Es wird viel Platz gebraucht, da immer der komplette Pfad gespeichert wird
  
  Zu den von Dir gesehenen Nachteilen:
  
  - Der Aufbau des Baumes scheint mir durchaus nicht schwierig zu sein: Es genügt doch, die Pfade alfabetisch zu sortieren (bzw. von der DB sortieren zu lassen). Um eine hübsche Verzeichnisbaum-Ansicht zu bekommen, kann man ja bei der Anzeige per RegEx oder File::Spec alles links vom letzten / abtrennen und in Abhängigkeit von der Anzahl der / einrücken (sinngemäß).
  
  - Es wird schon einiges an Platz benötigt, aber das sollte bei Verwendung eines RDBMS nicht weiter schlimm sein. Dafür sind die Dinger ja da. (Die Ansätze, alles gleichzeitig im Arbeitsspeicher verarbeiten zu wollen, können hingegen durchaus am Datenumfang scheitern.)
  
  Ich stelle mir eine Datenbanktabelle vor, die z.B. im Wesentlichen folgende Spalten hat:
  
  Code: (dl )
  
  1 2 3 4 5 6
  
  ID NUMERIC , FULLPATH VARCHAR , DIRNAME VARCHAR , LEVEL NUMERIC , FIRSTDETECTED DATE , LASTVERIFIED DATE
  
  Primärschlüssel wäre FULLPATH und FIRSTDETECTED (auf jeden Fall UNIQUE) oder die ID (letzteres ist dann sinnvoll, wenn später Fremdschlüssel darauf verweisen, z.B. aus der 1:n-verknüpften Tabelle mit den Dateinamen darin usw., sonst wäre die ID verzichtbar).
  
  DIRNAME und LEVEL sind natürlich prinzipiell verzichtbar, sie werden aus FULLPATH generiert (s.o.). Zu entscheiden ist, ob sie schon beim INSERT oder erst später bei der Ausgabe von der Anwendung erzeugt werden sollen.
  
  Die beiden Datumsfelder bilden die Zeit ab, in der ein Verzeichnis exisitiert hat. FIRSTDETECTED wird auf (jetzt) gesetzt, wenn das Verzeichnis erstmals erfasst und INSERTed wird, LASTVERIFIED wird bei jedem Synchronisationsvorgang auf (jetzt) gesetzt. Bei der Abfrage des aktuellen Filesystems wird in der WHERE-Klausel auf LASTVERIFIED = (Datum_der_letzten_Synchronisierung) gefiltert.
  
  Für die Synchronisation, also den Abgleich mit dem wirklichen Filesystem, sind verschiedene Ansätze denkbar, je nach den Anforderungen, ich beteilige mich auch hier gern an der Diskussion, wenn gewünscht.
  
  Soviel fürs erste
  Grüße
  payx
  
  PS: Was auf jeden Fall sehr schwer verfolgbar ist, sind Fälle, in denen Verzeichnisse umbenannt oder verschoben werden. Sie müssen wohl (bei allen derartigen Ansätzen) als Löschung und Neuanlage registriert werden.
  
  Editiert von payx: Typo
  Last edited: 2011-02-24 14:28:27 +0100 (CET)
- +31 replies
- clms
  
  2011-02-24 14:22
  
  User since
  2010-08-29
  373 Artikel
  BenutzerIn
  
  Vorab: Das "nested stes"-Modell habe ich nicht verstanden, habe aber auch nicht die Muße mich da einzulesen. Trotzdem hier ein paar von meinen Gedanken:
  
  Wie Renee habe auch ich mich gefragt, ob Du in Perl wirklich die Struktur imt den verschchtelten Hashes brauchst. Aber das hängt davon ab, was Du mit den Daten alles anstellen willst.
  
  Hst Du einmal an eine Kombination von Parent- und Pfad-Modell gedacht?
  Im Prinzip das Pfad-Modell mit einer zusätzlichen Parent-ID.
  
  Was die Zugriffsmöglichkeiten angeht hast Du dann die Vorteile beider Modelle. Nachteil: 3-4 Byte zusätzlicher Speicherbedarf pro Eintrag.
  - +30 replies
  - lousek
    
    2011-02-25 00:45
    User since
    2011-01-19
    28 Artikel
    BenutzerIn
    
    Hallo zusammen
    
    Zuerst vielen Dank für die Antworten :-)
    
    Naja, der primäre Zweck der Datenbank ist wirklich um der vorherige Stand des Dateisystems (resp. der Stand in der DB) und der jetztige Stand vergleichen zu können also was wurde erstellt und was wurde gelöscht ...
    
    @payx:
    An das mit dem "FIRSTDETECT"-Feld habe ich auch schon gedacht.
    Ich denke, ich werde es mal mit dem Pfad-Modell inkl. "FIRSTDETECTED", "LASTVERIFIED", "LEVEL" und "ID" probieren. Wenn man mit einer maximalen Pfadlänge von 255 Bytes rechnet, gibt dies somit sicher gut und gerne 300 Bytes für jeden Datensatz. Gibt bei 1 Million Ordner 300MB ... ich denke, dies ist wirklich noch erträglich :-)
    
    Aber dann bleibt ein weiters Problem:
    Beim starten des Scripts muss ja überprüft werden, ob der Ordner xyz bereits in der Datenbank eingetragen ist, und wenn ja, soll "FIRSTDETECTED" auf "jetzt" geupdatet werden.
    Jetzt könnte man entweder eine Abfrage machen (SELECT ... WHERE path = ...), und überprüfen, ob das Ergebnis >0 ist (vorhanden in der DB) und ansosten einfügen. Dies ist aber sehr ineffizient, da bei 1 Million Ordner die DB 1 Million mal gefragt wird, ob ein Eintrag in 1 Million Einträge vorkommt ... also 1 Billion Vergleiche.
    
    Daher kamm die Idee mit dem Hash-Tree:
    Man fragt die Datenbank ein einziges Mal ab (SELECT * FROM dir;)
    Danach generiert man aus den Pfaden den Hash-Tree; ich hatte es für das "Parent-Modell" wie folgt gemacht:
    
    Code: (dl )
    
    1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69
    
    #!/usr/bin/perl -w use strict; use DBI; ## DB data my $db = "xxx"; my $user = "xxx"; my $pass = "xxx"; my $host = "localhost"; # Connect to DB my $dbh = DBI->connect("DBI:mysql:$db:$host", $user, $pass); my %hash; buildDBHash(0, \%hash); # Build a hash like $hash{part}{of}{the}{hash} = 0 using the Database # Syntax: buildDBHash(parentID, hashref) # Return Value: Hash-Tree sub buildDBHash { # Set variables my $parentID; my $id; my $folders; my $hash; # Load arguments into variables if (defined($_[0])) { $parentID = $_[0]; # Load parentID into variable } if (defined($_[1])) { $hash = $_[1]; # Load parentID into variable } # Set query my $query = "SELECT id,parentID,name FROM dir WHERE parentID=$parentID;"; # Run query my $sth = $dbh->prepare($query); $sth->execute(); # Use the query results ... while (my @result = $sth->fetchrow_array) { my $id = $result[0]; my $parentID = $result[1]; my $name = $result[2]; print $name."\n"; # Add this result to the Hash $hash{$name} = $id; # Create a reference to the hash my $ref = \%hash; # Go one step further $ref = $ref->{$name}; # Call the buildDBHash-function for the child-entries buildDBHash($id, $ref); } }
    
    Danach kann man eben mit "if (defined($hash{teile}{des}{pfades})) ..." recht effizient überprüfen, ob ein Pfad in der Datenbank ist. Wäre dieser Weg nicht effizienter, wie wenn man tausende von SQL-Statements absetzt und verarbeiten muss?
    
    Gruss & vielen Dank
    Lousek
    - +4 replies
    - payx
      
      2011-02-25 09:20
      
      User since
      2006-05-04
      564 Artikel
      BenutzerIn
      
      Hallo Lousek,
      
      2011-02-24T23:45:40 lousek
      Beim starten des Scripts muss ja überprüft werden, ob der Ordner xyz bereits in der Datenbank eingetragen ist, und wenn ja, soll "FIRSTDETECTED" auf "jetzt" geupdatet werden.
      
      Ich dachte eher an das Feld LASTVERIFIED, das bei jeder Synchronisation aktualisiert werden soll.
      
      Wenn Dein beschriebenes Verfahren auch bei größeren Datenmengen funktioniert, ist es gut. Sonst würde ich noch folgende Alternative sehen, die umgekehrt zu Deinem Verfahren funktioniert und den Abgleich der Datenbank überlässt:
      
      Das Synchronisationsscript liest das gesamte Dateisystem aus und schreibt es in eine zweite Datenbanktabelle (T_LS_TMP) mit gleicher Struktur wie die eigentliche Tabelle (die vielleicht T_LS heißt), wobei FIRSTDETECTED und LASTVERIFIED beide auf (jetzt) gesetzt werden.
      
      Nun folgen drei SQL-Statements:
      
      Code: (dl )
      
      1 2 3 4 5 6 7 8
      
      UPDATE T_LS SET LASTVERIFIED = sysdate WHERE FULLPATH in (SELECT FULLPATH FROM T_LS_TMP) and LASTVERIFIED = (SELECT max(LASTVERIFIED) FROM T_LS);
      
      Code: (dl )
      
      1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
      
      INSERT INTO T_LS (FULLPATH, DIRNAME, LEVEL, FIRSTDETECTED, LASTVERIFIED) SELECT FULLPATH , DIRNAME , LEVEL , FIRSTDETECTED , LASTVERIFIED FROM T_LS_TMP left outer join T_LS on T_LS_TMP.FULLPATH=T_LS.FULLPATH and T_LS.LASTVERIFIED = (SELECT max(LASTVERIFIED) FROM T_LS) WHERE T_LS.FULLPATH IS NULL;
      
      Und wenn das alles geklappt hat
      
      Code: (dl )
      
      DELETE FROM T_LS_TMP;
      
      Das SQL ist ungetestet und nur beispielhaft gemeint, Du wirst es noch an Dein RDBMS anpassen müssen. Auch die Vergabe der ID, so sie verwendet werden soll, habe ich erstmal ausgeblendet.
      
      Bei Deinem wie bei diesem Verfahren muss einmal der gesamte Datenbestand zwischen Anwendung und DB transferiert werden. Ob eine der beiden Richtungen wesentlich schneller ist als die andere, kann ich nicht voraussagen (andere aber vielleicht schon, sonst bleibt nur probieren). Darüber, ob man ganz im Allgemeinen derartige Aufgaben in der Anwendung oder in der Datenbank erledigen soll, kann man trefflich stundenlang streiten. Ich gehöre eher zu denen, die eine Datenbank schon gern mal schuften lassen.
      
      HTH
      Grüße
      payx
      
      Edit: An das erste SQL angefügt: and LASTVERIFIED = (SELECT max(LASTVERIFIED) FROM T_LS);. Sonst würden gelöschte und wieder neu angelegte Verzeichnisse doppelt erscheinen. (Besser wäre es übrigens, die Synchronisationsdatumswerte in einer eigenen Tabelle zu verwalten.)
      Last edited: 2011-02-25 10:14:47 +0100 (CET)
      - +3 replies
      - lousek
        
        2011-02-25 11:49
        
        User since
        2011-01-19
        28 Artikel
        BenutzerIn
        
        Wow, das mit der temporären Tabelle ist natürlich auch eine Idee :-)
        
        Ich glaube, ich kenne zwar die Grundlagen einigermassen, aber mir fehlt einfach die Efahrung ...
        
        Sehe ich dass richtig, dass du bei einer Synchronisation natürlich nur beim betreffenden Ordner das Feld "LASTVERIFIED" auf sysdate (also jetzt) setzt, nicht bei allen Ordnern?
        
        Wenn ja:
        Bei deinem ersten SQL-Statement hast du ja
        
        Code: (dl )
        
        LASTVERIFIED = (SELECT max(LASTVERIFIED) FROM T_LS);
        
        darin. Wenn jetzt ein Ordner am 12.12.2012 um 12:12 synchronisiert wurde, dann wurde ja auch "LASTVERIFIED" auf 12.12.2012 um 12:12 gesetzt. Bei allen anderen Ordner ist "LASTVERIFIED" älter wie bei diesem.
        Wenn ich jetzt das SQL-Statement
        
        Code: (dl )
        
        SELECT max(LASTVERIFIED) FROM T_LS;
        
        absetzte, dann bekomme ich doch nur den höchsten Wert resp. das letzte Datum zurück, also eben den 12.12.2012 um 12:12.
        Das würde ja heissen, dass er in deinem ersten SQL-Statement nur diejenigen Datensätze updaten würde, wo "LASTVERIFIED" = 12.12.2012 um 12:12 ist, und das wäre ja nur dieser eine Ordner ... oder sehe ich da etwas falsch?
        
        Könntest du mir das zweite SQL-Statement noch etwas genauer erläutern, ich habe da so meine Verständnis-Probleme :-)
        
        Ich versuche mal, die beiden "Möglichkeiten" zusammenzufassen und gegenüberzustellen:
        Temporäre Tabelle
        Weg
        Dateisystem nach Ordner absuchen
        Jeden gefundenen Ordner in eine temporäre Tabelle in der DB schreiben
        1. SQL-Statement: Updaten von "LASTVERIFIED" für alle Ordner die sowohl in der "Haupttabelle" wie auch in der temporären Tabelle vorkommen
        2. SQL-Statement: Ordner, die in der Haupttabelle nicht vorkommen, aber in der temporären Tabelle schon, in die Haupttabelle einfügen
        3. SQL-Statement: Temporäre Tabelle löschen
        4. SQL-Statement: Alle Datensätze aus der Haupttabelle abfragen, wo LASTVERIFIED nicht geupdated wurde -> Ordner sind auf dem Dateisystem nicht mehr vorhanden
        
        Ressourcen-Bedarf
        1 Million Ordner in der Haupttabelle (dauerhaft), pro Datensatz ca. 300 Byte -> ca. 300MB in der DB
        1 Million Ornder in der temporären Tabelle (temporäre ;-)), pro Datensatz ca. 300 Byte -> ca. 300MB in der DB
        Total in DB: ca 600MB
        CPU-Leistung wird vorwiegend auf dem Datenbankserver benötigt
        Perl-Script braucht nur ein "Minimum" an Memory & CPU
        
        Vorteil
        Verarbeitung wird in die Datenbank verlagert
        Replikationsserver braucht weniger Ressourcen
        
        Nachteil
        Es wird temporär der doppelte Platz belegt
        Um "Änderungen" im Perl-Script zu verarbeiten, müssen weitere SQL-Abfragen gemacht werden (z.B. welche Ordner waren jetzt nur in der Ordnerstruktur existent?)
        
        Hash-Tree
        Weg
        1. SQL-Statement: Tabelle aus DB abfragen (evt. in "Häppchen, also z.B. immer nur 10'000 Einträge)
        Hash-Tree aus Abfrage-Ergebnis (Array) "bauen" (evt. in "Häppchen" s.o.)
        Dateisystem nach Ordner absuchen
        Für jeden gefundenen Ordner überprüfen, ob er im Hash vorkommt (if(defined(...)))
        Falls nicht, Ordner der Datenbank hinzufügen
        Falls ja, den Ordner aus dem Hash entfernen um Ressourcen frei zu machen
        Alle noch verbleibende Ordner aus dem Hash überprüfen -> nur in der DB, nicht in der Ordnerstruktur vorhanden
        
        Ressourcen-Bedarf
        1 Million Ordner in der Tabelle, pro Datensatz ca. 300 Byte -> ca. 300MB in der DB
        Total in DB: ca 300MB
        10x 100'000 Ordner im temporären Array (wenn man die SQL-Abfrage in "Häppchen" aufteilt) -> ca. 30MB
        1 Million Ordner im Hash-Tree, wenn der Ordnername 1/10tel des Pfades ist, pro Ordner ca. 30 Bytes -> 30MB für den Hash-Tree
        Total Memory für Perl-Script: 30 - 60MB
        
        Vorteil
        Verarbeitung auf dem Replikationsserver selbst
        Relativ wenig Memory für die Verarbeitung nötig
        Aufwand für die Vergleiche (ist in DB?) wird in die Datenstruktur (Hash-Tree) ausgelagert
        Einfache Weiterverarbeitung der Ergebnisse (ist nur in DB, ist nur in Ordnerstruktur) im Perl-Script möglich
        
        Nachteil
        Hohe CPU-Last auf Replikationsserver
        Es wird etwas mehr Memory auf dem Replikationsserver gebraucht (wie wenn es auf dem DB-Server berechnet würde)
        
        So, soweit mal zu dem "Vergleich" ... habe ich etwas vergessen?
        
        Ich denke, falls die Datenbank anstatt auf dem Replikationsserver auf einem leistungsfähigen Datenbankserver liegt, macht deine Variante mehr Sinn, sobald aber die Datenbank auf dem Replikationsserver selbst liegt, würde "mein" Weg mehr Sinn machen ... oder nicht?
        
        Warum genau würdest du die Synchronisations-Datumswerte in eine seperate Tabelle auslagern?
        
        Und "nebenbei" ... was wäre dann die best mögliche Lösung, um auch die Files überprüfen zu können? Tabelle mit Fremdschlüssel auf die Ordnertabelle?
        
        Gruss & vielen Dank
        Lousek
        Last edited: 2011-02-25 13:26:48 +0100 (CET)
        
        pq
        
        2011-02-25 12:12
        
        User since
        2003-08-04
        12209 Artikel
        Admin1
        
        wo ich das grad so sehe mit deiner ### formatierung:
        unser forum kann auch verschachtelte listen; würde das ganze vielleicht etwas lesbarer machen:
        
        Temporäre Tabelle
        
        Weg
        Ressourcen-Bedarf
        
        Dateisystem nach Ordner absuchen
        Jeden gefundenen Ordner in eine temporäre Tabelle in der DB schreiben
        ...
        Hash-Tree
        ...
        
        Always code as if the guy who ends up maintaining your code will be a violent psychopath who knows where you live. -- Damian Conway in "Perl Best Practices"
        lesen: Wie frage ich & perlintro brian's Leitfaden für jedes Perl-Problem
        
        payx
        
        2011-02-25 16:36
        
        User since
        2006-05-04
        564 Artikel
        BenutzerIn
        
        Hallo Lousek,
        
        2011-02-25T10:49:00 lousek
        Sehe ich dass richtig, dass du bei einer Synchronisation natürlich nur beim betreffenden Ordner das Feld "LASTVERIFIED" auf sysdate (also jetzt) setzt, nicht bei allen Ordnern?
        
        Das erste Statement soll bei allen Datensätzen, die in beiden Tabellen vorhanden – also weder neu noch gelöscht – sind, LASTVERIFIED auf (jetzt) – d.h. den aktuellen Timestamp s.u. – setzen.
        
        2011-02-25T10:49:00 lousek
        Wenn ja:
        Bei deinem ersten SQL-Statement hast du ja
        
        Code: (dl )
        
        LASTVERIFIED = (SELECT max(LASTVERIFIED) FROM T_LS);
        
        darin. Wenn jetzt ein Ordner am 12.12.2012 um 12:12 synchronisiert wurde, dann wurde ja auch "LASTVERIFIED" auf 12.12.2012 um 12:12 gesetzt. Bei allen anderen Ordner ist "LASTVERIFIED" älter wie bei diesem.
        Wenn ich jetzt das SQL-Statement
        
        Code: (dl )
        
        SELECT max(LASTVERIFIED) FROM T_LS;
        
        absetzte, dann bekomme ich doch nur den höchsten Wert resp. das letzte Datum zurück, also eben den 12.12.2012 um 12:12.
        Das würde ja heissen, dass er in deinem ersten SQL-Statement nur diejenigen Datensätze updaten würde, wo "LASTVERIFIED" = 12.12.2012 um 12:12 ist, und das wäre ja nur dieser eine Ordner ... oder sehe ich da etwas falsch?
        
        Ein bisschen falsch siehst Du es, denke ich. Das UPDATE-Statement behandelt die Daten nicht seriell. Das heißt, es wird nicht der erste in der Liste upgedated, danach unter den neuen Bedingungen des ersten upgedateten der zweite usw., sondern alle Datensätze werden sozusagen gleichzeitig unter denselben Bedingungen verarbeitet.
        
        2011-02-25T10:49:00 lousek
        Könntest du mir das zweite SQL-Statement noch etwas genauer erläutern, ich habe da so meine Verständnis-Probleme :-)
        
        OK, ich versuche es:
        
        Code: (dl )
        
        1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31
        
        INSERT INTO T_LS (FULLPATH, DIRNAME, LEVEL, FIRSTDETECTED, LASTVERIFIED) -- soweit klar: nach T_LS inserten, und zwar das, was das folgende SELECT zurückgibt SELECT -- Korrektur: Hier haben vorhin die Tabellennamen gefehlt. Das hätte nicht funktioniert, -- weil die Spaltennamen in beiden Tabellen vorkommen und also nicht eindeutig sind. T_LS_TMP.FULLPATH , T_LS_TMP.DIRNAME , T_LS_TMP.LEVEL , T_LS_TMP.FIRSTDETECTED , T_LS_TMP.LASTVERIFIED FROM T_LS_TMP -- left outer join heißt: selecte von der linken Tabelle (also T_LS_TMP) alle Datensätze -- und von der rechten alle, die nach den join-Kriterien (Bedingungen wie in einer WHERE- -- Klausel) übereinstimmen. Das heißt, die linke Tabelle wirkt als Filter auf die rechte -- aber nicht umgekehrt. -- Ich bekomme also zunächst alle Datensätze aus T_LS_TMP und dazu Daten aus T_LS von den -- den join-Kriterien entsprechenden Datensätzen (außer der Bedingung, die die Überein- -- stimmung prüft habe ich noch eine Bedingung eingebaut, die auf Aktualität prüft, denn -- wenn ein Verzeichnis in der Vergangenheit schon einmal existiert hat, dann aber gelöscht -- und jetzt neu wieder angelegt wurde, soll es in T_LS doppelt erscheinen - mit einander -- nicht überschneidenden Zeitintervallen). left outer join T_LS on T_LS_TMP.FULLPATH=T_LS.FULLPATH and T_LS.LASTVERIFIED = (SELECT max(LASTVERIFIED) FROM T_LS) WHERE -- Da ich aber nur die haben will, die in der Zieltabelle nicht schon enthalten sind, filtere -- ich jetzt alle diejenigen Datensätze aus, die in der Zieltabelle enthalten sind. T_LS.FULLPATH IS NULL;
        
        2011-02-25T10:49:00 lousek
        Ich versuche mal, die beiden "Möglichkeiten" zusammenzufassen und gegenüberzustellen:
        
        [...]
        
        So, soweit mal zu dem "Vergleich" ... habe ich etwas vergessen?
        
        Kommt mir alles vernünftig vor.
        
        2011-02-25T10:49:00 lousek
        Ich denke, falls die Datenbank anstatt auf dem Replikationsserver auf einem leistungsfähigen Datenbankserver liegt, macht deine Variante mehr Sinn, sobald aber die Datenbank auf dem Replikationsserver selbst liegt, würde "mein" Weg mehr Sinn machen ... oder nicht?
        
        Kann sein. – Oder vielleicht in beiden Fällen einfach das, was leo11 vorgeschlagen hat...
        
        2011-02-25T10:49:00 lousek
        Warum genau würdest du die Synchronisations-Datumswerte in eine seperate Tabelle auslagern?
        
        Ich würde es so machen, dass immer der ganze Synchronisationsvorgang einen einzigen (z.B. von der Anwendung festgesetzten) Zeitstempel bekommt, der dann bei allen Datensätzen (sowohl bei FIRSTDETECTED als auch bei LASTVERIFIED) identisch gesetzt wird. Und diese Zeitstempel würde ich halt zusätzlich in einer separaten Tabelle loggen, dann kann ich LASTVERIFIED = (SELECT max(LASTVERIFIED) FROM T_SYNCDATES) abfragen (das neue Datum eben erst am Ende eintragen) und später in der Anwendung eine Liste der Snapshots zur Auswahl anbieten usw.
        
        2011-02-25T10:49:00 lousek
        Und "nebenbei" ... was wäre dann die best mögliche Lösung, um auch die Files überprüfen zu können? Tabelle mit Fremdschlüssel auf die Ordnertabelle?
        
        Wenn die Files andere Attribute haben als die Verzeichnisse, dann wohl schon. Anderenfalls könnten sie einfach zusammen mit den Verzeichnissen und gleich wie sie (im wesentlichen über den FULLPATH usw.) behandelt werden, dann würdest Du einfach nur das Erscheinen, Vorhandensein und Verschwinden von Objekten im Filesystem dokumentieren - was ja vielleicht auch schon alles ist, was Du willst.
        
        HTH
        Grüße
        payx
    - +25 replies
    - leo11
      
      2011-02-25 15:24
      
      User since
      2008-08-14
      250 Artikel
      BenutzerIn
      
      2011-02-24T23:45:40 lousek
      Naja, der primäre Zweck der Datenbank ist wirklich um der vorherige Stand des Dateisystems (resp. der Stand in der DB) und der jetztige Stand vergleichen zu können also was wurde erstellt und was wurde gelöscht ...
      
      Und so etwas simples wir das hier tut es nicht?
      
      Code: (dl )
      
      1 2 3 4 5 6 7
      
      vor der Installation: find / | grep -v -e ^/proc/ -e ^/tmp/ -e ^/dev/ > emacs_23-1_preinstall.list danach: find / | grep -v -e ^/proc/ -e ^/tmp/ -e ^/dev/ > emacs_23-1_postinstall.list danch diffen
      
      Ergebnis von time:
      
      Code: (dl )
      
      1 2 3
      
      real 0m3.265s user 0m3.050s sys 0m0.940s
      
      Unter Debian geht das, und falls du nur die Ordner willst mach find / -type d
      - +23 replies
      - lousek
        
        2011-02-25 16:43
        
        User since
        2011-01-19
        28 Artikel
        BenutzerIn
        
        Hallo leo11
        
        Ich bin mir nicht sicher, ob du mein Problem richtig verstanden hast ... es hat zumindest nichts mit einer Installation zu tun ...
        
        LG
        Lousek
        Last edited: 2011-02-25 17:46:38 +0100 (CET)
        
        +22 replies
        
        leo11
        
        2011-02-25 17:54
        
        User since
        2008-08-14
        250 Artikel
        BenutzerIn
        
        2011-02-25T15:43:04 lousek
        Hallo leo11
        
        Ich bin mir nicht sicher, ob du mein Problem richtig verstanden hast ... es hat zumindest nichts mit einer Installation zu tun ...
        
        LG
        Lousek
        
        Ich hab den Thread nur überflogen.. . Jedenfalls macht meine Angabe den Teil, auf den ich mich bezogen habe. (-:
        
        LG
        leo11
        
        Nachtrag:
        Im Eingang schreibst du:
        
        Quote
        Schlussendlich will ich eigentlich sehen, welche Ordner in der Datenbank existieren, aber auf dem Dateisystem nicht und welche Ordner auf dem Dateisystem existieren aber in der Datenbank nicht.
        
        Also falls du eine Art Screenshot der Ordnerstruktur mit einem späteren Screenshot der Ordnerstruktur vergleichen willst, so leistet genau das mein kleines Bsp. sehr schnell bei großen Mengen an Ordnern ganz ohne DB.
        Last edited: 2011-02-25 17:58:46 +0100 (CET)
        
        +21 replies
        
        lousek
        
        2011-02-25 18:14
        
        User since
        2011-01-19
        28 Artikel
        BenutzerIn
        
        Hallo leo11
        
        Stimmt, für diesen Anwendungsfall wäre deine Lösung viel effizienter. Da ich aber das Dateisystem mit inotify überwachen will, sobald die Datenbank "synchronisiert" ist mit der Ordnerstruktur, muss ich nicht immer das ganze Dateisystem abgrasen wie bei find. Dennoch habe ich eigentlich bis zum Shutdown der DB immer den aktuellsten Stand.
        
        Nur beim Aufstarten der DB resp. des Überwachungs-Daemons gibt es dann das "Problem", dass sich in der Zwischenzeit evt. Daten verändert haben.
        
        LG
        Lousek
        
        leo11
        
        2011-02-25 19:24
        
        User since
        2008-08-14
        250 Artikel
        BenutzerIn
        
        Ich denke, wenn du mein Bsp. verstanden hast kannst du auch bewerten in wie fern es dir weiterhilft. Vielleicht bist du mit der Aufgabe auch gut in einem Bashforum aufgehoben. Schönes WE, leo11.
        
        +19 replies
        
        leo11
        
        2011-02-26 08:22
        
        User since
        2008-08-14
        250 Artikel
        BenutzerIn
        
        Kennst du locate/updatedb? Das erkennt Änderungen, ist datenbankbasiert und recht schnell. Den Aufbau der Datenbank kann man halbwegs hier nachlesen: man mlocate.db
        
        Vielleicht hilft es dir. Du kannst dir auch dessen Sourcen anschauen... .
        Last edited: 2011-02-26 08:26:34 +0100 (CET)
        
        +18 replies
        
        lousek
        
        2011-02-26 21:06
        
        User since
        2011-01-19
        28 Artikel
        BenutzerIn
        
        Sali leo11
        
        Danke, werde ich mir mal anschauen :-)
        
        Ich habe bis jetzt auf einem "modernen" Server (3GHz Intel Xeon, 1GB RAM) bei ca. 100'000 Ordnern zwischen 10 - 15 Sekunden, bei einem "alten" Server (1GHz PIII, 2.5GB RAM) habe ich zwischen 40 - 50 Sekunden ... ich werde das Script posten, sobald ich es fertig habe :-)
        
        LG
        lousek
        
        +17 replies
        
        lousek
        
        2011-02-28 12:06
        
        User since
        2011-01-19
        28 Artikel
        BenutzerIn
        
        Kann mir mal jemand erklären, warum folgender Code:
        
        Code: (dl )
        
        1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
        
        #!/usr/bin/perl -w use Data::Dumper; %ordner = ( data => { bla1 => { ha1 => { hi1 => { he1 => 0, }, }, }, }, ); print Dumper(%ordner);
        
        diesen Output ergibt?:
        
        Code: (dl )
        
        1 2 3 4 5 6 7 8 9 10
        
        $VAR1 = 'data'; $VAR2 = { 'bla1' => { 'ha1' => { 'hi1' => { 'he1' => 0 } } } };
        
        Warum sieht dieser nicht gleich aus wie den Hash den ich definiert habe?
        
        Gruss
        Lousek
        
        +16 replies
        
        bianca
        
        2011-02-28 12:19
        
        User since
        2009-09-13
        7016 Artikel
        BenutzerIn
        
        Versuchs mal mit print Dumper(\%ordner);
        10 print "Hallo"
        20 goto 10
        
        +15 replies
        
        lousek
        
        2011-02-28 17:45
        
        User since
        2011-01-19
        28 Artikel
        BenutzerIn
        
        Hallo bianca,
        
        Vielen Dank, dies hat soweit funktioniert.
        
        Leider habe ich noch ein ziemliches Durcheinander mit den Referenzen etc.
        Ich versuche eigentlich mit dem folgenden Script den "Hash-Tree" wieder zu Pfaden umzuwandeln ... aber irgendwie scheitere ich; das Script läuft endlos.
        
        Was ich eigentlich möchte:
        - Jedes "Element" durchgehen (%hash{data}{bla1}{ha1}{hi1}{he1}), den Pfad "erhöhen" (/data/bla1/ha1/hi1/he1) und überprüfen, ob es zu Ende ist (also ob keine Keys mehr unter diesem Element vorhanden sind).
        - Wenn kein Key mehr vorhanden ist, Pfad in ein Array speichern und dann dieses Hash-Element löschen
        - Dies solange machen, bis keine Elemente mehr im Hash sind, dafür sind dann alle Pfade im Array
        
        Code: (dl )
        
        1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83
        
        #!/usr/bin/perl -w use Data::Dumper; %ordner = ( data => { #/data bla1 => { #/data/bla1 ha1 => { #/data/bla1/ha1 hi1 => { #/data/bla1/ha1/hi1 he1 => 0, #/data/bla1/ha1/hi1/he1 he2 => 1, #/data/bla1/ha1/hi1/he2 }, hi2 => { #/data/bla1/ha1/hi1 he1 => 0, #/data/bla1/ha1/hi2/he1 he2 => 1, #/data/bla1/ha1/hi2/he2 }, }, ha2 => { #/data/bla1/ha2 hi1 => { #/data/bla1/ha2/hi1 he1 => 0, #/data/bla1/ha2/hi1/he1 he2 => 1, #/data/bla1/ha2/hi1/he2 }, hi2 => { #/data/bla1/ha2/hi2 he1 => 0, #/data/bla1/ha2/hi2/he1 he2 => 1, #/data/bla1/ha2/hi2/he2 }, }, }, bla2 => { #/data/bla2 ha1 => { #/data/bla2/ha1 hi1 => { #/data/bla2/ha1/hi1 he1 => 0, #/data/bla2/ha1/hi1/he1 he2 => 1, #/data/bla2/ha1/hi1/he2 }, hi2 => { #/data/bla2/ha1/hi1 he1 => 0, #/data/bla2/ha1/hi2/he1 he2 => 1, #/data/bla2/ha1/hi2/he2 }, }, ha2 => { #/data/bla2/ha2 hi1 => { #/data/bla2/ha2/hi1 he1 => 0, #/data/bla2/ha2/hi1/he1 he2 => 1, #/data/bla2/ha2/hi1/he2 }, hi2 => { #/data/bla2/ha2/hi2 he1 => 0, #/data/bla2/ha2/hi2/he1 he2 => 1, #/data/bla2/ha2/hi2/he2 }, }, }, }, ); print Dumper(\%ordner); my @pathes; my $tmphash = \%ordner; my @blubb = keys(%$tmphash); while (keys(%ordner)) { my $path = ""; print "Keys1: ".keys(%ordner)."\n"; print "Keys2: ".keys(%$tmphash)."\n"; while (keys(%$tmphash)) { @parts = keys(%$tmphash); $part = $parts[0]; $path .= "/".$part; if(!keys(%{$tmphash->{$part}})) { print $path."\n"; push(@pathes, $path); delete $tmphash->{$part}; } else { $tmphash = $tmphash->{$part}; } print Dumper($tmphash); } } foreach my $haha (@pathes) { print "Path: $haha\n"; }
        
        Irgendwie stehe ich an -.-
        
        LG & vielen Dank
        Lousek
        Last edited: 2011-02-28 17:46:50 +0100 (CET)
        
        +2 replies
        
        Linuxer
        
        2011-02-28 18:21
        
        User since
        2006-01-27
        3891 Artikel
        HausmeisterIn
        
        Code (perl): (dl )
        
        my $tmphash = \%ordner;
        
        Du weisst, dass Du damit eine Referenz auf den Hash mit den originalen Daten erzeugst?
        Änderungen via $tmphash verändern daher die Struktur in %ordner.
        Wenn Du die Bearbeitung mit $tmphash abgeschlossen hast, dann sieht %ordner sicher nicht mehr so aus wie zuvor...
        
        Welchen Grund hat es eigentlich, dass Du kein strict verwendest?
        meine Beiträge: I.d.R. alle Angaben ohne Gewähr und auf Linux abgestimmt!
        Die Sprache heisst Perl, nicht PERL. - Bitte Crossposts als solche kenntlich machen!
        
        lousek
        
        2011-02-28 20:03
        
        User since
        2011-01-19
        28 Artikel
        BenutzerIn
        
        Hallo Linuxer
        
        Japs, dass ich damit eine Referenz erzeuge weiss ich und ist auch das Ziel davon.
        Ich will eigentlich die Hierarchie (%hash{data}{bla1}{...}) wieder in die ganzen Pfade (/data/bla1/...) umwandeln, also ist der Hash nachher nicht mehr von Nöten. Es ist sogar gut dass ich die Daten gerade aus dem Hash lösche, da bei sehr vielen Daten dann nicht zweimal der Platz (für den Hash und das Array) gebraucht wird, sondern nur einmal, da ich eigentlich die Daten vom Hash in das Array "verlagere" ...
        
        Gute Frage ^^ Bei diesem "Testscript" habe ich das wohl einfach vergessen ...
        
        Edit: Wenn ich use strict; einfüge bekomme ich den hier:
        Can't use string ("1") as a HASH ref while "strict refs" in use at ./hash2.pl line 69.
        Last edited: 2011-02-28 20:20:26 +0100 (CET)
        
        +12 replies
        
        topeg
        
        2011-02-28 21:02
        
        User since
        2006-07-10
        2611 Artikel
        BenutzerIn
        
        Ich habe mich vor kurzem mit so einem Problem beschäftigt.
        
        Dazu habe ich ein Modul geschrieben, dass eine BerkeleyDB transparent im Hintergrund nutzt um einen Verzeichnisbaum als Hash-Tree zu verwalten. Das Modul ist aber kaum dokumentiert. Nur das nötigste habe ich dazu geschrieben. Wenn du dennoch Interesse hast, kann ich es dir mal zusenden.
        
        Aber hier ein minimales Beispiel wie man so was handhaben kann:
        
        more (16.4kb)
        Ausgabe:
        more (5.7kb)
        
        +11 replies
        
        lousek
        
        2011-02-28 21:33
        
        User since
        2011-01-19
        28 Artikel
        BenutzerIn
        
        Wow, vielen vielen Dank.
        
        Ich denke, das wird mich sehr viel weiterbringen :-)
        
        Natürlich auch Danke an alle anderen für die tolle Hilfe hier im Forum!
        
        Lousek
        
        +10 replies
        
        lousek
        
        2011-03-01 00:32
        
        User since
        2011-01-19
        28 Artikel
        BenutzerIn
        
        So ... mein Script funktioniert jetzt soweit, dass es leider am Schluss der oberste Ordner "übrig" im Hash-Tree, sprich der wird nicht gelöscht ... warum genau?
        
        Ist der oberste Ordner evt. nicht als Hash-Referenz "gespeichert", und da ich nur Hash-Referenzen lösche wird dieser dann nicht gelöscht?
        
        Code (perl): (dl )
        
        1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197 198 199 200 201 202 203 204 205 206 207 208 209 210 211 212 213 214 215 216 217 218 219 220 221 222 223 224 225 226 227 228 229 230 231 232 233 234 235 236 237 238 239 240 241 242 243 244 245 246 247 248 249 250 251 252 253
        
        #!/usr/bin/perl -w use strict; use DBI; use Data::Dumper; use Data::TreeDumper; # Define variables my $db; my $user; my $pass; my $host; my $dbh; my $stime; my $etime; my $endtime; my %hash; ## DB data $db = "ofrs"; $user = "ofrs"; $pass = "ofrs"; $host = "localhost"; # Connect to DB $dbh = DBI->connect("DBI:mysql:$db:$host", $user, $pass); # Set time before import $stime = time; # Sync a replication folder on the disk with the database checkFS("/data/test1"); # Set time after import $etime = time; $endtime = ($etime - $stime); # Print needed time print "Needed $endtime seconds ...\n"; # Creates a hash tree for a replication folder using the pathes in the database # Syntax: makeTree($repFolder) # Return Value: hash-tree (hash) sub makeTree { # Set & define the variables my $path = $_[0]; my $tree={}; # Set query my $query = "SELECT path FROM dir WHERE path = '$path';"; # Run query my $sth = $dbh->prepare($query); $sth->execute(); # Use the query results ... while (my @result = $sth->fetchrow_array) { my $path = $result[0]; # ... and add each path to the hash-tree addToTree($tree,$path); } # return the hash-tree return $tree; } # add a Path to the hash-tree # Syntax: addToTree($tree,$path) # Return value: none sub addToTree { # Set & define the variables my $tree = $_[0]; my $path = $_[1]; # Split the path up to its parts my @parts = split('/',$path); # Delete the first (empty) part shift @parts; # Delete the trailing slash at the end of the path if exists my $file=1; unless($parts[-1]) { $file=0; pop(@parts); } # build the hash-tree for this path my $ref=\$tree; $ref=\$$ref->{$_} for(@parts); } # build the pathes from the hash-tree # Syntax: buildPathes($tree) # Return value: path-list (array-reference) sub buildPathes { # Set & define variables my $tree=shift; my $path=shift // ''; my @list; # walk through all levels and sort them for my $name (sort(keys(%$tree))) { my $elm=$tree->{$name}; if($elm && ref($elm) eq 'HASH') { # run the function recursive my $lst=buildPathes($elm,"$path/$name"); push(@list,@$lst); } else { push(@list,"$path/$name"); } } # return the list of pathes from the hash-tree return \@list; } # sync a replication folder on the disk with the database # Syntax: checkFS($repPath) # Return value: none sub checkFS { # Set & define variables my $path = $_[0]; # create the hash-tree for this path / replication folder my $tree = makeTree($path); # check if the folder on the disk exists in the database checkFolder($path, $tree); # build the pathes from the hashes left in the hash-tree my $onlyDB = buildPathes($tree); # print the pathes out print "OnlyDB-Pathes:\n"; print Dumper($onlyDB); # foreach my $path (@$onlyDB) { # DELETE THE MISSING FOLDERS FROM THE DATABASE # } } # check a folder and its subfolder if they exists in the hash-tree # Syntax: checkFolder($path, $tree) # Return value: none sub checkFolder { # Set variables my @subfolders; my $path; my @parts; my $name; my $hash; my $tmphash; my $found; my $childNotFound; # Load arguments into variables if (-d $_[0]) { $path = $_[0]; # Load path into variable } else { # Exit script if no path is specified print "Error: No valid path specified\n"; exit(1); } if (defined($_[1])) { $hash = $_[1]; # Load hash into variable } else { # Exit script if no hash is specified print "Error: No hash specified\n"; exit(1); } # Set variables $childNotFound = 0; # split the path to its parts @parts=split(/\//, $path); shift @parts; $name = $parts[-1]; $found = 0; $tmphash = \%hash; for (my $i = 0; $i < @parts; $i++) { # walk through each part of the path my $part = $parts[$i]; if(defined($tmphash->{$part})) { # Does the part exists in the hash-tree? if($i == @parts-1) { # Is this the last part of the path? $found=1; # Yes, the folder is in the database! } else { # Not the last part of the path $tmphash=$tmphash->{$part}; # Go one level further } } else { last; # The path is not in the database } } if ($found == 0) { # Insert current directory into DB # Set query my $query = "INSERT INTO dir (path) VALUES (\"$path\");"; # Run query $dbh->do($query); } # Open the current directory opendir (DIR, $path) or die "Unable to open $path: $!"; # Exclude "." and ".." my @files = grep { !/^\.{1,2}$/ } readdir (DIR); # Close directory closedir (DIR); # Set the full path for all files @files = map { $path . '/' . $_ } @files; # Write each subfolder into the array @subfolders foreach my $file (@files) { if (-d $file) { push (@subfolders, $file) } } # If there are any subfolders then ... if (@subfolders > 0) { foreach my $subfolder (@subfolders) { # ... put the subfolder into the DB using the subfolder's path and the id of the current directory $childNotFound = checkFolder($subfolder, \%hash); } } # if this directory was found in the path and if it has no subfolders, then delete it from the hash-tree if ($found == 1 && !keys(%{$tmphash->{$name}})) { delete $tmphash->{$name}; return 0; } else { # return 1 if this folder is either not in the hash-tree or if this directory has subfolders return 1; } }
        
        +8 replies
        
        topeg
        
        2011-03-01 00:56
        
        User since
        2006-07-10
        2611 Artikel
        BenutzerIn
        
        Zeile 193 $tmphash = \%hash; schönes Beispiel, warum man mit globalen Variablen vorsichtig sein, und warum man "Sprechende" Variablennamen nutzen sollte. Hätte die %hash %global_hash_tree geheißen wäre es nie zu dem Fehler gekommen.
        
        Außerdem:
        
        Code (perl): (dl )
        
        1 2 3 4 5 6 7 8 9 10 11 12
        
        for (my $i = 0; $i < @parts; $i++) { # walk through each part of the path my $part = $parts[$i]; if(defined($tmphash->{$part})) { # Does the part exists in the hash-tree? if($i == @parts-1) { # Is this the last part of the path? $found=1; # Yes, the folder is in the database! } else { # Not the last part of the path $tmphash=$tmphash->{$part}; # Go one level further } } else { last; # The path is not in the database } }
        
        lässt sich einfacher schreiben:
        
        Code (perl): (dl )
        
        1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32
        
        while(@parts) { # walk through each part of the path my $part=shift(@parts); my $elm=$tmphash->{$part}; # Does the part exists in the hash-tree? if(defined($elm)) { # Is this the last part of the path? if(!@parts) { # Yes, the folder is in the database! $found=1; #leave loop last; } # Not the last part of the path else { # if possible # Go one level further if(ref($elm) eq 'HASH') { $tmphash=$elm; } else { last; } } } else { # The path is not in the database last; } }
        
        +5 replies
        
        lousek
        
        2011-03-01 10:14
        
        User since
        2011-01-19
        28 Artikel
        BenutzerIn
        
        Hallo topeq
        
        Stimmt, denn eigentlich brauch ich den "globalen Hash" gar nicht ...
        
        Brauch ich die Zeile $tmphash = \%hash überhaupt? Denn eigentlich ist die Übergabe ($_[1]) ja bereits eine Referenz auf einen Hash, kann ich also nicht einfach diesen verwenden?
        
        Gruss & Danke
        Lousek
        
        +4 replies
        
        Gast wer
        
        2011-03-01 11:35
        
        Das musst du besser wissen als topeg!
        Last edited: 2011-03-01 11:45:37 +0100 (CET)
        
        +3 replies
        
        lousek
        
        2011-03-01 16:47
        
        User since
        2011-01-19
        28 Artikel
        BenutzerIn
        
        Sorry, ich weiss nicht ganz, wie mir diesen Beitrag helfen soll ...!?
        
        Gruss
        Lousek
        
        +2 replies
        
        bianca
        
        2011-03-01 16:50
        
        User since
        2009-09-13
        7016 Artikel
        BenutzerIn
        
        2011-03-01T15:47:35 lousek
        Sorry, ich weiss nicht ganz, wie mir diesen Beitrag helfen soll ...!?
        
        Du fragtest, ob Du $tmphash = \%hash noch brauchst. Und das müsstest Du selbst beantworten, nicht topeg. Weil Du wissen musst, was da genau gebraucht wird. Glaube, das war gemeint.
        10 print "Hallo"
        20 goto 10
        
        lousek
        
        2011-03-01 17:11
        
        User since
        2011-01-19
        28 Artikel
        BenutzerIn
        
        Sali bianca
        
        Ich hatte mich eigentlich eher gefragt, ob ich nicht direkt $hash von der Funtion selbst verwende könnte, da dies doch bereits eine Referenz ist?
        Also wenn ich folgende Funktion habe:
        
        Code (perl): (dl )
        
        1 2 3
        
        sub funktion{ my $hash = $_[0]; }
        
        Und diese Funktion folgendermassen aufrufe:
        
        Code (perl): (dl )
        
        1 2 3
        
        my %hash = ( ...); funktion(\%hash);
        
        Dann ist doch der Skalar $hash in der Funktion eine Referenz auf den Hash %hash? Dann muss ich doch nicht nochmals eine Referenz auf die Referenz erzeugen ($tmphash = \$hash), sondern dann kann ich doch direkt die bestehende Referenz weiterverwenden, oder nicht?
        
        Gruss & Danke
        Lousek
        
        +2 replies
        
        lousek
        
        2011-03-01 17:04
        
        User since
        2011-01-19
        28 Artikel
        BenutzerIn
        
        Hallo topeq
        
        Jetzt gibt es aber das Problem, dass die Funktion addToTree beim Hash-Tree die Werte nicht einfach auf ein "leeren" (?) Hash gesetzt werden (also = {}), sondern auf "undef":
        
        Code (perl): (dl )
        
        1 2 3
        
        # build the hash-tree for this path my $ref=\$tree; $ref = \$$ref->{$_} for(@parts);
        
        Hash-Tree:
        
        Code (perl): (dl )
        
        1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
        
        $VAR1 = { 'data' => { 'test4' => { 'abcdwxyz1' => { 'abcdwxyz1' => { 'abcdwxyz1' => { 'abcdwxyz1' => undef, 'abcdwxyz3' => undef, 'abcdwxyz2' => undef }, 'abcdwxyz3' => { 'abcdwxyz1' => undef, 'abcdwxyz3' => undef, 'abcdwxyz2' => undef }, 'abcdwxyz2' => { 'abcdwxyz1' => undef, 'abcdwxyz3' => undef, 'abcdwxyz2' => undef } }, ...
        
        Da jedoch dann in der Funktion checkFolder mit if(defined) geprüft wird, ob dies der letzte Part ist (egal ob mit deinem Beispiel (while) oder meinem (for)), bleibt bei den "untersten" Ebenen $found immer auf 0 (not found in database):
        
        Code (perl): (dl )
        
        1 2 3 4 5 6 7 8 9
        
        if(defined($tmphash->{$part})) { # Does the part exists in the hash-tree? if($i == @parts-1) { # Is this the last part of the path? $found=1; # Yes, the folder is in the database! } else { # Not the last part of the path $tmphash=$tmphash->{$part}; # Go one level further } } else { last; # The path is not in the database }
        
        An einem anderen Ort hatte ich mal das folgende Konstrukt:
        
        Code (perl): (dl )
        
        1 2
        
        my $scan = \%ret; $scan = $scan->{shift @parts} ||= {} while @parts;
        
        Also solange noch eine tiefere Ebene vorhanden war, wird als Wert eine Hash-Referenz gesetzt und sobald die unterste Ebene erreicht wurde, wird der Hash auf "leer" (?) gesetzt.
        
        Beispiel-Hash-Tree:
        
        Code (perl): (dl )
        
        1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
        
        $VAR1 = { 'data' => { 'test4' => { 'abcdwxyz1' => { 'abcdwxyz1' => { 'abcdwxyz1' => { 'abcdwxyz1' => {}, 'abcdwxyz3' => {}, 'abcdwxyz2' => {} }, 'abcdwxyz3' => { 'abcdwxyz1' => {}, 'abcdwxyz3' => {}, 'abcdwxyz2' => {} }, 'abcdwxyz2' => { 'abcdwxyz1' => {}, 'abcdwxyz3' => {}, 'abcdwxyz2' => {} } }, ...
        
        Jedoch klappt diese Lösung nicht beim "aktuellen" Code:
        
        Code (perl): (dl )
        
        1 2 3
        
        # build the hash-tree for this path my $ref=\$tree; $ref = \$$ref->{$_} ||= {} for(@parts);
        
        Error:
        
        Code: (dl )
        
        1 2
        
        Can't modify single ref constructor in logical or assignment (||=) at ./syncDBwithFS3.pl line 93, near "} for" Execution of ./syncDBwithFS3.pl aborted due to compilation errors.
        
        Ich weiss nicht ganz, wo ich jetzt ansetzten soll, ohne dass ich diese beiden Zeile wieder auf irgendwie auf 50 Zeilen hässlich anderst zusammen bastle ... ?
        
        Gruss & vielen Dank
        Lousek
        
        topeg
        
        2011-03-02 00:46
        
        User since
        2006-07-10
        2611 Artikel
        BenutzerIn
        
        Schau dir meinen Originalcode an, dann siehst du wie ich den letzten Wert gesetzt habe.
        
        Code (perl): (dl )
        
        1 2 3 4
        
        # build the hash-tree for this path my $ref=\$tree; $ref = \$$ref->{$_} for(@parts); $$ref={};
        
        Damit sind die "Enden" nicht mehr "undef". Aber der Fehler wahrscheinlich liegt wie beschrieben noch wo anders.
        
        topeg
        
        2011-03-02 00:18
        
        User since
        2006-07-10
        2611 Artikel
        BenutzerIn
        
        Ich habe mir das Ganze mal gründlich angeschaut und mir ist dabei ein logischer Fehler bei deiner Herangehensweise aufgefallen, wenn du das Dateisystem durchsuchst.
        Wenn ich den Code richtig lese, setzt du Auch Verzeichnisse in der DB obwohl du nur die Dateien haben willst, weiterhin löscht du ganze Bäume weil ein Ordner-Pfad bisher stimmt.
        Beispiel:
        Verzeichnisstruktur gegeben:
        
        Code: (dl )
        
        1 2 3 4 5 6
        
        data/ test1/ bla1 bla2 bla3/ usw
        
        "tree" aus der DB:
        
        Code: (dl )
        
        1 2 3 4 5 6 7 8 9
        
        { data => { test1 => { bla1 => 'X', bla2 => 'X', bla3 => {}, } } }
        
        Wenn du nun unten Anfängst zu testen so wird gleich "data" gelöscht, da es ja im 'tree' vorkommt. Die restlichen Prüfungen sind nicht mehr Aussagekräftig und erzeugen einen "tree" dessen Enden "undef" sind (auch für leere Verzeichnisse).
        Ein Lösung wäre "am Ende" von Dateisystem anzufangen und dich zur Wurzel vor zuarbeiten.
        Oder Du erzeugst auch für das Dateisystem ein Baum, und Vergleichst den mit dem der aus der DB generiert wurde. Das wäre auch der weg den ich gehen würde.
        
        Dein Script mal dahingehend überarbeitet, aber noch nicht getestet. Es können noch Fehler enthalten sein:
        more (36.6kb)
      - lousek
        
        2011-06-20 21:13
        
        User since
        2011-01-19
        28 Artikel
        BenutzerIn
        
        Sali leo
        
        So, Abschlussprüfungen vorbei, wieder etwas Zeit zum basteln :-)
        
        Jetzt wo ich den Thread wieder überfliege, sehe ich, dass du genau das gemeint hattest ... ... ...
        
        Ich hatte gerade eben die geniale Idee, zwei Dateien mit je 3.5 Millionen Zeilen per diff zu vergleichen.
        
        Das geniale Ergebnis:
        Auf einem i7-740:
        
        Code: (dl )
        
        1 2 3
        
        real 0m4.095s user 0m3.240s sys 0m0.840s
        
        Auf einem Intel Pentium D 2.8 GHz:
        
        Code: (dl )
        
        1 2 3
        
        real 0m7.162s user 0m4.900s sys 0m2.240s
        
        Auf einem Intel Pentium 3 @ 1.0 GHz:
        
        Code: (dl )
        
        1 2 3
        
        real 0m29.863s user 0m19.481s sys 0m9.061s
        
        Mal schauen, ob evt. dies sogar der einfachste und schnellste Weg zum Vergleichen ist :-)
        
        LG
        lousek

View all threads created 2011-02-24 00:10.