doppelte Zeilen (Allgemeines zu Perl)

[thread]14738[/thread]

doppelte Zeilen

Leser: 29

Articles: hide open all | hide show old branches

+8 replies
gmafx

2010-02-26 16:44
User since
2009-11-19
47 Artikel
BenutzerIn
Hallo,

ich habe n Arrays, die die Spalten einer Tabelle darstellen. Jetzt möchte ich alle doppelten Zeilen entfernen und nur jeweils eine von mehrfach vorkommenden Wiederholungen behalten.

Bisher habe ich die Daten immer als Datei weggeschrieben und dann mit diesem netten Einzeiler behandelt, dessen Inhalt ich leider garnicht verstehe:
Code: (dl )

perl -e ' $unique=0; while(<>) { if (!($save{$_}++)) { print $_; $unique++ } } warn "\nChose $unique unique lines out of $. total lines.\n\n" ' all > unique
Ich wäre dankbar, wenn mir jemand erklären könnte, was obiger Code prinzipiell bedeutet. Vor allem möchte ich mir langfristig das Schreiben und Lesen von Dateien sparen und direkt auf der Basis der in den Arrays gespeicherten Daten doppelte Zeilen finden.

Geht das?

gma
- +7 replies
- topeg
  
  2010-02-26 17:02
  User since
  2006-07-10
  2611 Artikel
  BenutzerIn
  also nehmen wir an du hast das Array @liste dann entfernst du alle doppelten Zeilen so:
  
  Code (perl): (dl )
  
  1 2 3 4 5 6 7 8 9 10 11
  
  my %uniqe=(); # durchlaufe das Array rückwärts for my $cnt (reverse (0..$#liste)) { # ein String generieren der "eindeutig" ist my $line=join(',',@{$liste[$cnt]}); # entferne die Zeile aus dem Array wenn sie schon einmal gefunden wurde splice(@liste, $cnt,1) if($uniqe{$line}); # setze diese Zeile als gefunden; $uniqe{$line}++; }
  
  Wenn es nicht auf die Reihenfolge ankommt und man einen eindeutigen Trenner der Spalten hat kann man auch so was machen:
  
  Code (perl): (dl )
  
  1 2
  
  my %unique=map{(join(',',@$_),1)}@liste; @liste=map{[spit(',',$_)]}keys(%unique);
  
  Das Funktioniert weil in meinem Hash alle Schlüssel (keys) eindeutig sind, setzt man den zusammengefügten String einer Zeile als Schlüssel, so werden alle doppelten entfernt. Nimmt man dann die Schlüssel und trennt die Zeile wieder auf, so bekommt man eine Liste von Arrays, die eindeutig sind.
  - +6 replies
  - gmafx
    
    2010-02-26 20:37
    User since
    2009-11-19
    47 Artikel
    BenutzerIn
    
    Hallo,
    
    irgendwie funktionieren beide Lösungen für mich nicht, wahrscheinlich liegt es daran, dass ich es jeweils nicht wirklich verstanden habe.
    
    Zu Lösung zwei:
    wie komme ich den an die Daten von @Liste, irgendwie komme ich nicht dahinter?
    
    Ich habe es so probiert:
    
    Code: (dl )
    
    1 2 3 4 5 6 7 8 9 10 11
    
    @liste = `cat test.tab`; my %unique=map{(join(',',@$_),1)}@liste; @liste=map{[split(',',$_)]}keys(%unique); foreach $liste (@liste) {$count++; print $liste; } print "$count\n";
    
    Aber das ergibt: ARRAY(0x800c9c)1
    
    1. Lösung: verstehe ich nicht und funktioniert so, wie ich es getestet habe auch nicht:
    
    Code: (dl )
    
    1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
    
    @liste = `cat test.tab`; my %uniqe=(); # durchlaufe das Array rückwärts for my $cnt (reverse (0..$#liste)) { # ein String generieren der "eindeutig" ist my $line=join(',',@{$liste[$cnt]});## print $line printet nichts!!! # entferne die Zeile aus dem Array wenn sie schon einmal gefunden wurde splice(@liste, $cnt,1) if($uniqe{$line}); # setze diese Zeile als gefunden; $uniqe{$line}++;print "$cnt\n"; } foreach $liste (@liste) {print $liste;}
    
    Ergebnis: runterzählen vom Ende bis 1, dann bekomme ich die erste Zeile von Test.tab ausgedruckt.
    
    Offensichtlich werden hier Datenstrukturen genutzt, die meinen Horizont überschreiten (ich kann Skalar, Array und ein Grundlagen mit Hashs, leider verstehe ich zB. nicht so etwas wie: $uniqe{$line}- sieht aus wie eine Referenz, oder? Dann muss man das auch wieder dereferenzieren, um es zu drucken, oder?
    
    Zudem bedeuten beide Ansätze, dass ich die Struktur meiner Daten erst invertieren muss (ich habe die Spalten in einzelnen Arrays, jetzt brauche ich jeweils Reihe für Reihe als Element eines einzigen Arrays).
    
    Da muss ich erst mal meine Daten "übersetzen".
    
    gma
    - MatthiasW
      
      2010-02-26 22:21
      
      User since
      2008-01-27
      367 Artikel
      BenutzerIn
      
      Wie topeg bereits erläutert hat, verwendet man üblicherweise einen Hash, um sich zu merken, welche "Zeilen" bereits vorkamen und diese dann auszusortieren.
      
      Seine Lösungen bauen darauf auf, dass @liste in jeder "Zeile" mehrere "Spalten" enthält, die Einträge des Arrays also Arrayreferenzen sind.
      
      Da du anscheinend mehrere Arrays vorliegen hast - für jede Spalte eines - musst du den Code entsprechend abwandeln, das Prinzip bleibt natürlich dasselbe:
      
      Code (perl): (dl )
      
      1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
      
      my @spalte1; my @spalte2; #... my @spalteN; unique( \@spalte1, \@spalte2, ... \@spalteN ); sub unique { my( @cols ) = @_; my %u; for my $i ( reverse 0 .. $#{ $cols[0] } ) { if ( $u{ join( $;, map { $_->[$i] } @cols ) }++ ) { splice( @$_, $i, 1 ) for @cols; } # if } # for } # unique
      
      Ich möchte es mal so ähnlich erläutern, wie es im "lila Drachenbuch"(1) erklärt wird:
      Man möchte herausfinden, ob eine bestimmte Zeile bereits vorhanden ist, und entsprechend darauf reagieren. Zunächst einmal benutzt man eine Liste L, deren Einträge jeweils eine - in diesem Falle unikale - Zeile repräsentieren. Für jede Zeile der Ausgangsdaten verfährt man nun wie folgt: Man durchsucht die Liste L nach einem Eintrag, welcher der jeweiligen Zeile der Ausgangsdaten entspricht. Da mehrfach auftauchende Zeilen lediglich entfernt werden sollen, kann man bei einem Fund, eventuell die aktuelle Zeile einfach nicht in die Liste L eintragen und diese als Ergebnis verwenden, oder aber die Ausgangsdaten verändern, also bei einem Fund die aktuelle Zeile aus den Ausgangsdaten entfernen. Enthält die Liste L noch keinen entsprechenden Eintrag, so wird die aktuelle Zeile dieser angefügt.
      
      Allerdings ist es unpraktisch für jede Zeile der Ausgangsdaten, die gesamte Liste L nach einem identischen Eintrag zu durchsuchen, deshalb verwendet man einen Hash dessen Schlüssel den Einträgen der Liste L entsprechen. Bei der Suche nach einer identischen Zeile kann man nun überprüfen, ob der Hash bereits einen solchen Schlüssel enthält.
      
      MfG
      
      (1) Aho, Alfred u. a. (2007): Compilers:Principles, Techniques, and Tools: International Edition. 2. Auflage. (1986). Pearson Education. S. 360.
      perl -E'*==*",s;;%ENV=~m,..$,,$&+42;e,$==f;$"++for+ab..an;@"=qw,u t,,print+chr;sub f{split}say"@{=} me"'
    - +4 replies
    - topeg
      
      2010-02-27 03:08
      
      User since
      2006-07-10
      2611 Artikel
      BenutzerIn
      
      Ich habe dich da irgendwie falsch verstanden, ich dachte du hättest ein zweidimensionales Array:
      
      Code (perl): (dl )
      
      1 2 3 4 5 6 7 8
      
      my @liste=( \@zeile1, \@zeile2, \@zeile3, \@zeile4, #... \@zeilen )
      
      Wobei man auf einen einzelnen Eintrag so zugreift:
      
      Code (perl): (dl )
      
      my $wert=$liste[$ZeilenNr]->[$SpaltenNr]
      
      Du sagst nun aber du hast so was:
      
      Code (perl): (dl )
      
      1 2 3 4 5 6 7 8
      
      my @liste=( $zeile1, $zeile2, $zeile3, $zeile4, #... $zeilen )
      
      wobei jede Zeile ein String ist.
      Dann sind die Zeilen ja schon zu einem String zusammengefügt und du kannst die Sache mit dem Unique verweinfachen:
      
      Code (perl): (dl )
      
      1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54
      
      # bitte immer strict und warnings nutzen, # du bekommst dann bei vielen Fehlern Meldungen, # die perl ansonsten versuchen würde zu interpretieren. use strict; use warnings; # Dateiname der Datei, # welche die Zeile enthält # wie erstellst du die Datei? # Ich vermute mal, # dass du nicht immer eine Datei erstellen willst # um eindeutige Zeilen zu bekommen, oder? # Das ganze geht definitiv auch ohne Datei my $file='test.tab'; # macht das selbe wie # @liste = `cat test.tab`; open(my $fh,'<',$file) or die("ERROR open $file ($!)"); my @liste=<$fh>; close($fh); # unique ist ein Hash # ein Hash hat die Besonderheit, # dass alle Schlüssel(keys genannt) einzigartig sind, # dh, sie tauchen niemals doppelt auf. # das ist soweit klar? my %uniqe=(); # durchlaufe das Array rückwärts for my $cnt (reverse (0..$#liste)) { # die Zeile die oben ausgelesen wurde my $line=$liste[$cnt]; # entferne die Zeile aus dem Array wenn sie schon einmal gefunden wurde # wenn $line als Schlüssel in %unique schon mal vorgekommen ist ( "if($unique{$line})" ), # dann löschen wir die Zeile aus den Array @liste ( "splice(@liste, $cnt,1)" ) splice(@liste, $cnt,1) if($uniqe{$line}); # nun Zählen wir den Wert, # der zum Schlüssel $line gehört, um 1 hoch $uniqe{$line}++; # man kann hier auch schreiben: # $uniqe{$line}=1; # das gibt die Aktuelle Zeilennummer aus print "$cnt\n"; } # alles testweise ausgeben: for my $line (@liste) { print $line; }
      
      2010-02-26T19:37:28 gmafx
      Offensichtlich werden hier Datenstrukturen genutzt, die meinen Horizont überschreiten (ich kann Skalar, Array und ein Grundlagen mit Hashs, leider verstehe ich zB. nicht so etwas wie: $uniqe{$line}- sieht aus wie eine Referenz, oder? Dann muss man das auch wieder dereferenzieren, um es zu drucken, oder?
      
      Du kennst doch Einen Hash mit Werten:
      
      Code (perl): (dl )
      
      1 2 3 4
      
      my %hash=(); $hash{"bla"}=1; $hash{'foo'}=1; $hash{bar}=1;
      
      Du kannst nun auch schreiben:
      
      Code (perl): (dl )
      
      1 2 3 4 5 6 7 8 9 10 11
      
      my $wert=''; my %hash=(); $wert='bla'; $hash{$wert}=1; $wert='foo'; $hash{$wert}=1; $wert='bar'; $hash{$wert}=1;
      
      wenn man das schreiben kann kann man auch das schreiben:
      
      Code (perl): (dl )
      
      1 2 3 4 5 6 7
      
      my @liste=('bla','foo','bar'); my %hash=(); for my $wert (@liste) { $hash{$wert}=1; }
      
      Soweit klar?
      
      Nun benutze ich dies um die Eingelesene Zeile als Schlüssel für den Hash zu benutzen.
      
      2010-02-26T19:37:28 gmafx
      Zudem bedeuten beide Ansätze, dass ich die Struktur meiner Daten erst invertieren muss (ich habe die Spalten in einzelnen Arrays, jetzt brauche ich jeweils Reihe für Reihe als Element eines einzigen Arrays).
      
      Da muss ich erst mal meine Daten "übersetzen".
      
      Ich kann dir nicht folgen? Wie bitte ließt du die Zeilen denn nun?? Erst hast du Arrays und dann nicht?!
      Machts du so was in der Art?
      
      Code (perl): (dl )
      
      1 2 3 4 5
      
      while(my @line=read_line_von_irgendwo) { my $zeilendaten=join(',',@zeile); push(@liste,$zeilendaten); }
      
      Wenn ja, kannst du dir das zusammenfügen sparen indem du eine Referenz auf das Array in @liste tust:
      
      Code (perl): (dl )
      
      1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31
      
      my @liste; # ... while( my @line=lese_zeilen_von_irgendwo() ) { my $zeilendaten=join(',',@zeile); push(@liste,[@zeile]; # oder: # push(@liste,\@zeile; } # ... # nun wollen wir nur die Zeilen, die einzigartig sind my %uniqe=(); # durchlaufe das Array rückwärts for my $cnt (reverse (0..$#liste)) { # ein String generieren der "eindeutig" ist my $line=join(',',@{$liste[$cnt]}); # entferne die Zeile aus dem Array wenn sie schon einmal gefunden wurde splice(@liste, $cnt,1) if($uniqe{$line}); # setze diese Zeile als gefunden; $uniqe{$line}++; } for(@liste) { print join(', ',@$_)."\n"; }
      
      aber bitte erkläre genauer wo und wie du die Daten ließt?
      - +3 replies
      - gmafx
        
        2010-02-27 18:41
        
        User since
        2009-11-19
        47 Artikel
        BenutzerIn
        
        Hallo,
        
        die vorliegende (wahrscheinlich unübliche) Datenstruktur sieht so aus:
        
        Jede Spalte meiner Tabelle wird durch einen Array (@array_1 - @array_n) dargestellt, jedes Array hat $total Elemente:
        
        @array_1[0] @array_2[0] ..... @array_n[0]
        @array_1[1] @array_2[1] ..... @array_n[1]
        @array_1[2] @array_2[2] ..... @array_n[2]
        ... .... ..... ......
        @array_1[$total] @array_2[$total] ..... @array_n[$total]
        
        Ich habe mir jetzt eine wahrscheinlich wesentlich zu komplizierte Subroutine geschrieben, die dieses Konstrukt in diese Form übersetzt, wo nur 1 Array vorliegt, jedes Element beinhaltet einen Scalar, der eine ganze Zeile beinhaltet und die jeweiligen Werte Tab-begrenzt sind:
        
        @array[0]= Zeile1_wert1\t Zeile1_wert2\t Zeile1_wert3\t . Zeile1_wertn\n
        @array[1]= Zeile2_wert1\t Zeile2_wert2\t Zeile2_wert3\t . Zeile2_wertn\n
        @array[2]= ....
        
        Doppelte entferne ich jetzt so (ähnlich), wie das hier prinzipiell vorgeschlagen wurde: ich habe eine kleine Subroutine, die ich so aufrufe:
        
        Code: (dl )
        
        1 2 3 4 5 6 7 8 9 10 11 12 13
        
        @array=&del_double(@array); $count=0; foreach $array (@array) {$count++;} print "unique lines: $count\n"; sub del_double{ my %all; grep {$all{$_}=0} @_; return (keys %all); }
        
        Das funktioniert zwar, ist aber auch wieder irgendwie Kraut und Rüben!
        Ginge auch was mit oben beschriebener Struktur, oder ist von dieser generell abzuraten? Wahrscheinlich schon, denn ich denke, dass viele Abläufe, die man standardmäßig mit Tabellen durchführt, eher schwierig werden könnten (zum Beispiel Sortieren).
        
        Für die anderen (vielen) Hinweise: vielen Dank, ich werde Sie studieren und hoffentlich auch mal verstehen. Bisher erscheint mir vieles einfach zwei-zu viele Stufen über meinen Möglichkeiten.
        
        gma
        
        murphy
        
        2010-02-27 19:56
        
        User since
        2004-07-19
        1776 Artikel
        HausmeisterIn
        
        Das funktioniert selbstverständlich auch mit Deiner Speicherstruktur, die mehrere Arrays verwendet. Zum Beispiel so:
        
        Code (perl): (dl )
        
        1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32
        
        use strict; use warnings; use Data::Dumper; my @columns_duplicates = ( [qw[1 2 3 2 4 4]], [qw[a b c b d d]], [qw[x y z y u u]] ); print Dumper \@columns_duplicates; my @columns_unique = do { my %seen; my @rows = grep { my $row = $_; not $seen{ join "\0", map { $_->[$row] } @columns_duplicates }++ } $[ .. $#{$columns_duplicates[0]}; map { [ @$_[@rows] ] } @columns_duplicates; }; print Dumper \@columns_unique;
        
        When C++ is your hammer, every problem looks like your thumb.
        
        MatthiasW
        
        2010-02-28 11:15
        
        User since
        2008-01-27
        367 Artikel
        BenutzerIn
        
        2010-02-27T17:41:21 gmafx
        Ginge auch was mit oben beschriebener Struktur, oder ist von dieser generell abzuraten? Wahrscheinlich schon, denn ich denke, dass viele Abläufe, die man standardmäßig mit Tabellen durchführt, eher schwierig werden könnten (zum Beispiel Sortieren).
        
        Hm... ich frage mich, ob du meinen Beitrag überlesen hast? Dort habe ich ein Schnipsel gepostet, dass mit deiner Struktur funktioniert...
        
        Ansonsten würde ich dir nicht unbedingt von dieser abraten. Ich denke es liegt bei dir, welche Struktur dir eher zusagt, bzw. mit welcher Struktur du besser arbeiten kannst. Sortieren ist hier auch nicht wesentlich komplizierter als bei einer Struktur, in der jede Zeile in einem eigenen Array liegt.
        
        Hast du bspw. nur ein Kriterium:
        
        Code (perl): (dl )
        
        1 2 3 4 5 6 7
        
        my @cols = ( [qw/ 1 2 3 4 5 1 6 7 8 9 1 /], [qw/ u b c d e a f g h i z /], ); my @idx = sort { $cols[0][$a] <=> $cols[0][$b] } 0 .. $#{ $cols[0] }; @$_ = @$_[@idx] for @cols;
        
        vs.
        
        Code (perl): (dl )
        
        1 2 3 4 5 6 7 8 9 10 11
        
        my @rows = ( [qw/ 1 a /], [qw/ 6 b /], [qw/ 5 f /], [qw/ 3 v /], [qw/ 9 c /], [qw/ 2 a /], ); my @idx = sort { $rows[$a][0] <=> $rows[$b][0] } 0 .. $#rows; @rows = @rows[@idx];
        
        MfG
        perl -E'*==*",s;;%ENV=~m,..$,,$&+42;e,$==f;$"++for+ab..an;@"=qw,u t,,print+chr;sub f{split}say"@{=} me"'

View all threads created 2010-02-26 16:44.