Doppelte Werte Ausfiltern (gelöst) (Allgemeines zu Perl)

[thread]17383[/thread]

Doppelte Werte Ausfiltern [gelöst]

Tags: perl5 duplikate Ähnliche Threads

Leser: 15

Articles: hide open all | hide show old branches

+9 replies
Lebewesen

2012-05-03 16:46
User since
2011-09-09
62 Artikel
BenutzerIn
Hallo,

ich will ein log komprimieren, und mir nur das erste Auftreten/Veränderung eines Ergeignisses ausgeben lassen.

Ich habe die Struktur jetzt als Skalar(CSV) im Arbeitsspeicher. Aufbau:

ID; Datum; VeränderbareWerte
01; 2011-01-01; abc
02; 2011-01-01; jkl
01; 2011-01-02; abc
01; 2011-01-03; xyz

Es soll quasi die dritte Zeile gelöscht werden.

Mein Ansatz ist, dass ich das Datum lösche, und nach "\n" als trenner in ein Array splitte, welches ich dann in eine Hashmap überführe um alle duplikate auszufiltern.

Dies schrumpfte das ganze von 4600 Zeilen auf 600 zusammen. Allerdings fehlt mir nun das Datum des ersten Vorkommens.

$daten ist der Ursprung
Code (perl): (dl )

1 2 3 4 5 6 7 8 9 10

my $daten1 = $daten; $daten1 =~ s%(.*?;).*?;(.*)%$1$2%g; my @daten=split(/\n/,$daten1); @daten=&del_double(@daten); sub del_double{ my %all=(); @all{@_}=1; return (keys %all); }
Die Frage ist jetzt wie ich mir das Datum am besten wieder hole.
Mein trivialer Ansatz währe gewesen
Code: (dl )

1 2

$daten sortieren foreach @daten - suche erste Zeile in $daten und schreibe diese in eine Datei.
Allerdings ist das wahrscheinlich nicht sehr performant, vorallem bei großen Datenmengen...

Kann mich jemand vielleicht in die richtige Richtung lenken? Vielleicht geht das ganze ja auch viel einfacher...

Vielen Dank,
Bastian
- +8 replies
- Linuxer
  
  2012-05-03 16:57
  User since
  2006-01-27
  3892 Artikel
  HausmeisterIn
  Lege einen Hash an, in dem Du zu jedem Datenwert (als Schlüssel) das Datum des ersten Auftauchens (als Wert) ablegst, solange der Datenwert noch nicht im Hash existiert.
  
  Code (perl): (dl )
  
  1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
  
  #! /usr/bin/perl use strict; use warnings; my %data; while ( my $line = <DATA> ) { chomp $line; my ( $id, $date, $value ) = split /;\s+/, $line; # store first occurence of $value with the data $data{$value} = $date if !exists $data{$value}; } # kontrolle use Data::Dumper; print Dumper \%data; __DATA__ ID; Datum; VeränderbareWerte 01; 2011-01-01; abc 02; 2011-01-01; jkl 01; 2011-01-02; abc 01; 2011-01-03; xyz
  
  meine Beiträge: I.d.R. alle Angaben ohne Gewähr und auf Linux abgestimmt!
  Die Sprache heisst Perl, nicht PERL. - Bitte Crossposts als solche kenntlich machen!
  - +7 replies
  - Linuxer
    
    2012-05-03 17:44
    User since
    2006-01-27
    3892 Artikel
    HausmeisterIn
    
    Wenn es Dir nur ums Eindampfen geht (verringern der Zeilenzahl):
    
    Code (perl): (dl )
    
    1 2 3 4 5 6 7 8 9 10 11 12 13 14
    
    #! /usr/bin/perl # skript.pl use strict; use warnings; while ( my $line = <> ) { my ($id, $date, $value ) = split /;\s*/, $line; # gebe Zeile aus, wenn $value noch nicht aufgetaucht ist... print $line if !$seen{$value}++; }
    
    (frei nach http://perldoc.perl.org/perlfaq4.html#How-can-I-re...)
    
    Verwendung:
    
    Code: (dl )
    
    skript.pl input.csv > output.csv
    
    Wenn die CSV-Daten komplexer sind und eine "Zelle" auch mehrere Zeilen enthält, sollte Text::CSV oder ein ähnliches Modul verwendet werden, um die Datenzeilen zu lesen und zu splitten.
    meine Beiträge: I.d.R. alle Angaben ohne Gewähr und auf Linux abgestimmt!
    Die Sprache heisst Perl, nicht PERL. - Bitte Crossposts als solche kenntlich machen!
    - +3 replies
    - Lebewesen
      
      2012-05-04 08:34
      
      User since
      2011-09-09
      62 Artikel
      BenutzerIn
      
      Vielen Dank Linuxer!
      
      Werde es gleich mal in mein Programm einbauen! Ich habe vorher noch nicht mit Hashes gearbeitet, allerdings bin ich beim Suchen nach meinem Problem darauf gestoßen, dass ich die dafür brauche. Werde mich mal näher damit beschäftigen :D
      
      Man lernt halt nie aus :)
      Last edited: 2012-05-04 08:37:01 +0200 (CEST)
      - +2 replies
      - Lebewesen
        
        2012-05-07 16:14
        
        User since
        2011-09-09
        62 Artikel
        BenutzerIn
        
        ID; Datum; VeränderbareWerte
        01; 2011-01-01; abc
        02; 2011-01-01; jkl
        01; 2011-01-02; abc
        01; 2011-01-03; xyz
        01; 2011-01-04; abc
        
        Die das sich der Wert in 01 wieder in einen dagewesenen Wert geändert hat, müsste ich auch wissen. Leider kenn ich mich nicht gut genug mit HashMaps aus :(
        
        Ich weiß, dass ich die ID als Key nehmen muss, und den Wert als Value. Wenn noch kein Key existiert, dann wird die Zeile geschrieben, und der Key aufgenommen.
        Wenn der Key existiert, und sich Value geändert hat, dann wird die Zeile geschrieben und der Key mit dern neuen Value aktualisiert.
        
        Leider schaffe ich das überhaupt nicht umzusetzen... D:
        
        Irgendwas ist falsch, allerdings weiß ich nicht was!
        
        Code (perl): (dl )
        
        1 2 3 4 5 6 7 8 9 10 11 12 13
        
        my(@daten) = split(/\n/, $daten, 0); #In ein Zeilenarray umwandeln foreach my $line (@daten) { #Array Zeilenweise abarbeiten $line =~ m%(.*?);.*?;(.*)%; #Zeile ohne Datum als Primary Key my $key = $1; my $value = $2; if (!exists $seen{$key}){ print "$line\n"; $seen{$key} = $value; }elsif (! $key ~~ $seen{$key}){ print "$line\n"; $seen{$key} = $value; } }#end foreach duplikate verwerfen
        
        Lebewesen
        
        2012-05-08 07:08
        
        User since
        2011-09-09
        62 Artikel
        BenutzerIn
        
        habe es gelöst
        
        Code (perl): (dl )
        
        1 2 3 4 5 6 7
        
        if (!exists $seen{$key}){ print OUTDATEI "$line\n"; $seen{$key} = $value; }elsif ($value ne $seen{$key}){ print OUTDATEI "$line\n"; $seen{$key} = $value; }
    - +3 replies
    - Lebewesen
      
      2012-05-04 10:25
      
      User since
      2011-09-09
      62 Artikel
      BenutzerIn
      
      2012-05-03T15:44:18 Linuxer
      
      Code (perl): (dl )
      
      print $line if !$seen{$value}++;
      
      Ok, habe die Varriante jetzt eingebaut, und es ist verdammt schnell ;)
      
      Allerdings verstehe ich es noch nicht ganz if !$seen{$value}++
      Wenn er es noch nicht gesehen hat dann gibt er es aus. Das ist mir klar, aber was macht er hier? $seen{$value}++
      
      Danke
      Bastian
      - +2 replies
      - pq
        
        2012-05-04 11:10
        
        User since
        2003-08-04
        12209 Artikel
        Admin1
        
        der wert wird inkrementiert, was eben genau dafür sorgt, dass er beim nächsten mal schon "gesehen" wurde, d.h. der wert grösser 0 ist und damit "wahr". die inkrementierung ist ein sogenanntes post-inkrement, welches erst nach der abfrage von if ausgeführt wird.
        Always code as if the guy who ends up maintaining your code will be a violent psychopath who knows where you live. -- Damian Conway in "Perl Best Practices"
        lesen: Wie frage ich & perlintro brian's Leitfaden für jedes Perl-Problem
        
        Lebewesen
        
        2012-05-04 11:38
        
        User since
        2011-09-09
        62 Artikel
        BenutzerIn
        
        Danke

View all threads created 2012-05-03 16:46.