2 Dateien vergleichen aber.... (Allgemeines zu Perl)

[thread]18517[/thread]

2 Dateien vergleichen aber....

Tags: perl5 Ähnliche Threads

Leser: 16

Articles: hide open all | hide show old branches

+15 replies
Gast FDX

2013-08-13 16:47
Hallo Community,

ich habe ein Problem und hoffe als Newbie Hilfestellung zu bekommen.

Ich habe 2 Dateien die fast gleich sind. ich muss die beiden Dateien in eine in eine Vereinen. Jedes Wort des Satzes ist untereinander geschrieben.Die Sache ist, dass die Eigenschaften nach dem Wort (in der 2 Datei) immer nach dem Wort kommen muss und erst dann die anderen der ersten Datei. (Die unterschrichenen)

Datei 1 enthält Sätze wie folgend:

<S> <S>+BSTag
Ona o+Pron+Demons+A3sg+Pnon+Dat o+Pron+Pers+A3sg+Pnon+Dat on+Num+Card^DB+Noun+Zero+A3sg+Pnon+Dat Ona+Noun+Prop+A3sg+Pnon+Nom ona+Verb+Pos+Imp+A2sg
her her+Det
şeyimi şey+Noun+A3sg+P1sg+Acc
verdim ver+Verb+Pos+Past+A1sg
. .+?
</S> </S>+ESTag
<S> <S>+BSTag
Bir bir+Adverb bir+Det bir+Num+Card bir+Adj Bir+Noun+Prop+A3sg+Pnon+Nom
sigara sigara+Noun+A3sg+Pnon+Nom
yakmıştı yak+Verb+Pos^DB+Adj+Zero yak+Verb+Pos+Narr+Past+A3sg ^DB+Verb+Zero+Past+A3sg
. .+?
</S> </S>+ESTag

Ordner 2 enthält die selben Sätze in der Form:

Ona o+Pron+Pers+A3sg+Pnon+Dat
her her+Det
şeyimi şey+Noun+A3sg+P1sg+Acc
verdim ver+Verb+Pos+Past+A1sg
. .+Punc

Bir bir+Det
sigara sigara+Noun+A3sg+Pnon+Nom
yakmıştı yak+Verb+Pos+Narr+Past+A3sg
. .+Punc

Ausgabe muss Aussehen:

<S> <S>+BSTag
Ona o+Pron+Pers+A3sg+Pnon+Dat o+Pron+Demons+A3sg+Pnon+Dat on+Num+Card^DB+Noun+Zero+A3sg+Pnon+Dat Ona+Noun+Prop+A3sg+Pnon+Nom ona+Verb+Pos+Imp+A2sg
her her+Det
şeyimi şey+Noun+A3sg+P1sg+Acc
verdim ver+Verb+Pos+Past+A1sg
. .+?
</S> </S>+ESTag
<S> <S>+BSTag
Bir bir+Det bir+Adverb bir+Num+Card bir+Adj Bir+Noun+Prop+A3sg+Pnon+Nom
sigara sigara+Noun+A3sg+Pnon+Nom
yakmıştı yak+Verb+Pos+Narr+Past+A3sg yak+Verb+Pos^DB+Adj+Zero^DB+Verb+Zero+Past+A3sg
. .+?
</S> </S>+ESTag

Für die Vereinigung, habe ich mithilfe des Forums, diesen Code benutzt:
Code: (dl )

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37

my $in_file = "turtb_detached_train.ambig"; my $in_file2 = "test9STag.txt"; my $gold_standard = "GoldFormat.txt"; my @lines_file1 = (); my %hash = (); # einlesen der 1. Datei open(R_FILEONE,"<$in_file") or die $!; while(my $line = <R_FILEONE>){ push(@lines_file1,$line); } close R_FILEONE; # einlesen der 2. Datei open(R_FILETWO,"<$in_file2") or die $!; while(my $line = <R_FILETWO>){ chomp $line; $hash{$line} = 1; } close R_FILETWO; # überprüfen, ob die Zeile aus der 1.Datei eine Zahl aus der 2. Datei enthält foreach(@lines_file1){ my $check = substr($_,394,16); # Zahl in der langen Zeile raussuchen if($hash{$check}){ $_ = ''; } } # Zieldatei schreiben open(W_TARGET,">$gold_standard") or die $!; foreach(@lines_file1){ print W_TARGET $_ if($_); } close W_TARGET;
Bin für jede Kritik & Antwort sehr dankbar !

modedit Editiert von GwenDragon: Code-Tags repariert
Last edited: 2013-08-13 16:55:45 +0200 (CEST)
- +14 replies
- clms
  
  2013-08-13 19:27
  User since
  2010-08-29
  373 Artikel
  BenutzerIn
  Erstmal eine allgemeine Empfehlung:
  open benutzt man besser in der Form mit drei Argumenten und mit lexikalischen Filehandles:
  
  Code (perl): (dl )
  
  1 2 3 4 5
  
  open(my $fhtwo, "<",$in_file2) or die $!; while (my $line2 = <$fhtwo>) { ...; } close $fhtwo;
  
  Dann ein paar speziellere Tipps:
  
  1. Es besteht keine Notwendigkeit, den File1 komplett einzulesen, bevor Du irgendent was machst. Lese erstmal File2 ein, um das Hash zu füllen. Danach kannst Du File1 zeilenweise einlesen und gleich das Ergebnis in den Ausgabefile schreiben. Wenn Du große Files hast, spart das enorm Speicher.
  
  2. Du willst zunächst nur nach dem ersten Wort der jeweiligen Zeile suchen. Dann solltest Du das auch als Key für Deinen Hash verwenden.
  Beim Füllen also z.B.
  
  Code (perl): (dl )
  
  1 2 3 4
  
  while (my $line2 = <$fhtwo>) { my ($key,@attributes) = split $line2; $hash{$key} = [@attributes]; }
  
  Die auf das erste Wort folgenden Eigenschaften sind nun in einem anonymen Array als Value zum Hash-key gespeichert.
  
  Beim Lesen von File1 dann
  
  Code (perl): (dl )
  
  1 2 3 4 5 6 7 8
  
  while (my $line1 = <$fhone>) { my ($key,@attributes1) = split $line1; my $attrib_ref2 = $hash{key}; # Hash um Attribute die in File2 vorkamen aus der Attribut-Liste in File1 rauszufiltern my %filter_attrib = map {$_ => 1;} @$attrib_ref2; # Zeile mit Key, Attribute aus File2, gefilterte Attribute aus File1 ausgeben print $fhout join(' ',$key,@$attrib_ref2,grep {!$filter_attrib{$_}} @attributes1)."\n"; }
  
  Wenn die Attribute aus File2 nicht in exakt der gleichen Reihenfolge kommen müssen, sondern nur vor denen aus File1 kann man den Code noch etwas vereinfachen, indem man sie gleich in einem anonymen Hash statt einem anonymen Array speichert.
  
  Nicht berücksichtigt wurden bislang Fälle, in denen ein Wort zwar in File1 aber nicht in File2 vorkommt oder in dem zwar das Wort vorkommt, aber ohne Attribute.
  - +13 replies
  - FDX
    
    2013-08-13 21:48
    
    User since
    2013-04-16
    9 Artikel
    BenutzerIn
    
    Danke clms, habe es gleich ausprobiert. Bekomme beide Dateien zum einen, aber irgendwie nimmt es nicht den ersten Attribut-aus Datei2 nach dem Wort (key) sondern ist wie in Datei1 aufgelistet. Was habe ich übersehen?
    - +12 replies
    - clms
      
      2013-08-13 23:00
      
      User since
      2010-08-29
      373 Artikel
      BenutzerIn
      
      2013-08-13T19:48:23 FDX
      Bekomme beide Dateien zum einen, aber irgendwie nimmt es nicht den ersten Attribut-aus Datei2 nach dem Wort (key) sondern ist wie in Datei1 aufgelistet.
      
      Ich verstehe nicht, was du genau willst.
      
      Mein Code-Snipet soll folgendes machen:
      Gegeben Dateien 1+2 mit folgendem Zeilenformat:
      Datei1: <WORT> <ATTR1.0> <ATTR1.1> ... <ATTR1.m>
      Datae2: <WORT> <ATTR2.0> ... <ATTR2.n>
      wobei die Attribute jeweils durch ein Leerzeichen getrennt sind.
      
      Das Ergebnis soll dann sein:
      <WORT> <ATTR2.0> ... <ATTR2.n> <ATTR1.0> <ATTR1.1> ... <ATTR1.m>
      wobei die ATTR1.x fehlen, die schon in <ATTR2.0> ... <ATTR2.n> enthalten sind.
      
      Ist die Aufgabenstellung eine andere?
      - +11 replies
      - FDX
        
        2013-08-13 23:12
        
        User since
        2013-04-16
        9 Artikel
        BenutzerIn
        
        Das ist korrekt. Du hast es richtig erfasst. Wenn ich aber meine Ausgabe kontrolliere steht z.B <ATTR2.0> nicht an erster Stelle.
        
        z.B.
        Datei1
        Bir bir+Adverb bir+Det bir+Num+Card bir+Adj Bir+Noun+Prop+A3sg+Pnon+Nom
        
        Datei2
        Bir bir+Det
        
        Ausgabe
        Bir bir+Adverb bir+Det bir+Num+Card bir+Adj Bir+Noun+Prop+A3sg+Pnon+Nom
        
        ..erwartete Ausgabe sollte
        
        Bir bir+Det bir+Adverb bir+Num+Card bir+Adj Bir+Noun+Prop+A3sg+Pnon+Nom
        Last edited: 2013-08-13 23:13:26 +0200 (CEST)
        
        +10 replies
        
        clms
        
        2013-08-14 09:46
        
        User since
        2010-08-29
        373 Artikel
        BenutzerIn
        
        Ich habe gesehen, dass bei mir perlfunc split falsch genutzt wird. Das muss entweder mit $_ arbeiten
        
        Code (perl): (dl )
        
        1 2 3 4
        
        while (<$fhone>) { chomp; my ($key,@attributes1) = split; ...
        
        oder ein Pattern als erstes Argument bekommen:
        
        Code (perl): (dl )
        
        1 2 3
        
        while (my $line1 = <$fhone>) { chomp $line1; my ($key,@attributes1) = split /\s+/,$line1;
        
        Wenn es dass nicht war, ist's was anderes.
        Dann poste hier doch eimal Deinen Code. Vielleicht finden wir es ja.
        
        +9 replies
        
        FDX
        
        2013-08-14 10:23
        
        User since
        2013-04-16
        9 Artikel
        BenutzerIn
        
        Verändert sich leider nichts.
        
        Code (perl): (dl )
        
        1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39
        
        #!/usr/bin/perl use strict; use warnings; my $in_file = "datei1.txt"; my $in_file2 = "datei2.txt"; my $gold_standard = "Ausgabe.txt"; open(my $fhone, "<",$in_file) or die $!; open(my $fhtwo, "<",$in_file2) or die $!; open(my $fhout, ">",$gold_standard) or die $!; my %hash = (); my @attributes1 = (); my @attributes2 = (); while (my $line2 = <$fhtwo>) { my ($key,@attributes2) = split (/\s+/,$line2); $hash{$key} = [@attributes2]; } close $fhtwo; while (my $line1 = <$fhone>) { chomp $line1; my ($key,@attributes1) = split (/\s+/,$line1); my $attrib_ref2 = $hash{key}; # Hash um Attribute die in File2 vorkamen aus der Attribut-Liste in File1 rauszufiltern my %filter_attrib = map {$_ => 1} @$attrib_ref2; # Zeile mit Key, Attribute aus File2, gefilterte Attribute aus File1 ausgeben print $fhout join(' ',$key,@$attrib_ref2,grep {!$filter_attrib{$_}} @attributes1)."\n"; } close $fhone; close $fhout;
        
        Last edited: 2013-08-14 13:40:14 +0200 (CEST)
        
        +8 replies
        
        clms
        
        2013-08-14 13:54
        
        User since
        2010-08-29
        373 Artikel
        BenutzerIn
        
        Zeile 32!
        Da muss $hash{$key} stehen. Ohne das $ wird immer der Eintrag 'key' aus dem Hash genommen und der ist wahrscheinlich leer.
        (Gibt das nicht eine Warnung?)
        
        PS: Was mir noch aufgefallen ist:
        Zeilen 15/16 mit my @attributes1 = (); bzw. ...2 können ersatzlos weg, da Du die Variablen nie verwendest. (Du verwendest gleichnamige Variablen, die aber lokal in den while-Schleifen sind.
        Last edited: 2013-08-14 22:06:18 +0200 (CEST)
        
        +7 replies
        
        FDX
        
        2013-08-14 14:07
        
        User since
        2013-04-16
        9 Artikel
        BenutzerIn
        
        Hi clms,
        
        Super, es funktioniert. Sind aber doch einige dabei, bei denen es nicht funktioniert. Dachte erst es hat mit den " . .+punc" zu tun ist aber nicht so. hmmmm.....komisch.
        
        z.b.
        Datei1:
        vardı var+Adj^DB+Verb+Zero+Past+A3sg var+Verb+Pos+Past+A3sg
        
        Datei2:
        vardı var+Verb+Pos+Past+A3sg
        
        Ausgabe:
        vardı var+Adj^DB+Verb+Zero+Past+A3sg var+Verb+Pos+Past+A3sg
        
        Dürfte ich Dich nochmal etwas fragen? Falls jetzt ATTR2.0 sich in der ersten Datei wiederholen sollte, kann man die Wiederholten ATTR auch irgendwie weglassen?
        
        PS: Ne, bekomme keine Warnmeldung....
        Last edited: 2013-08-14 14:38:23 +0200 (CEST)
        
        +6 replies
        
        clms
        
        2013-08-14 14:35
        
        User since
        2010-08-29
        373 Artikel
        BenutzerIn
        
        2013-08-14T12:07:53 FDX
        Falls jetzt ATTR2.0 sich in der ersten Datei wiederholen sollte, kann man die Wiederholten ATTR auch irgendwie weglassen?
        
        Das ist schon eingebaut:
        %filter_attrib ist ein Hash mit allen Attributen zum gewählten Wort aus Datei2 (also ATTR2.0 ... ATTR2.n).
        grep {!$filter_attrib{$_}} @attributes1 filtert die Liste (@attributes1) (= ATTR1.0 ... ATTR1.m) und läßt nur Werte durch, die nicht in %filter_attrib gesetzt sind.
        
        +5 replies
        
        FDX
        
        2013-08-14 14:42
        
        User since
        2013-04-16
        9 Artikel
        BenutzerIn
        
        Wahrscheinlich habe ich mich da versehen bei so vielen Sätzen. Warum funktioniert es bei einigen nicht? - Da bin ich noch beim grübeln
        Last edited: 2013-08-14 15:07:57 +0200 (CEST)
        
        +2 replies
        
        Linuxer
        
        2013-08-14 22:06
        
        User since
        2006-01-27
        3891 Artikel
        HausmeisterIn
        
        Dann scheinen die Daten nicht dem gewünschten Format zu entsprechen.
        Möglicherweise Leerzeichen vor dem ersten Wort einer Zeile?
        
        Ohne Beispieldaten, mit denen es "nicht funktioniert", ist das nur schwer zu raten und nachzuvollziehen.
        Und was heißt bei Dir "funktioniert nicht"? Was passiert denn?
        meine Beiträge: I.d.R. alle Angaben ohne Gewähr und auf Linux abgestimmt!
        Die Sprache heisst Perl, nicht PERL. - Bitte Crossposts als solche kenntlich machen!
        
        clms
        
        2013-08-14 22:13
        
        User since
        2010-08-29
        373 Artikel
        BenutzerIn
        
        2013-08-14T20:06:42 Linuxer
        Dann scheinen die Daten nicht dem gewünschten Format zu entsprechen.
        Möglicherweise Leerzeichen vor dem ersten Wort einer Zeile?
        
        Oder geschützte Leerzeichen ( ), oder die Strings stimmen doch nicht 100% überein.
        
        Zum Debuggen könnte man die Strings in Anführungszeichen setzen. Dann sieht man ob der Split richtig funktioniert und evtl. noch eine Debug-Message ausgeben, wenn zu einem Wort aus Datei1 kein passender Eintrag aus datei2 gefunden wird.
        
        +2 replies
        
        clms
        
        2013-08-14 22:21
        
        User since
        2010-08-29
        373 Artikel
        BenutzerIn
        
        Ich würde an Deiner Stelle auch mal untersuchen, warum Du bei dem Fehler oben keine Warnung bekommen hast.
        Ist 'key' ein Wort in Datei2?
        
        Wenn nicht, müsste $hash{key} undef liefern. Und spätestens wenn Du dann eine Zeile später versuchst undef als Array zu dereferenzieren, sollte Perl aufschreien.
        
        FDX
        
        2013-08-14 23:04
        
        User since
        2013-04-16
        9 Artikel
        BenutzerIn
        
        Als ich es geändert habe, hatte ich unter Notifications (benutze Kommode Edit) die Fehlermeldung gesehen.
        
        Mein Deutsch ist nicht so gut versuche es aber mal zu übermitteln was ich meine :-)
        
        Ich glaube ich habe ES gefunden. Wir haben ja die ganze Datei in den Hash eingelesen. Es sind in der Datei auch gleiche Wörter mit verschiedenen Attributen an erster Stelle. Also hat das Programm, wenn es ein Wort das zweite, dritte oder n mal gefunden hat immer das erste Attribut vom ersten Wort genommen.
        
        Also habe ich hinter key ein lineCount hinzugefügt.
        
        Code (perl): (dl )
        
        1 2 3 4 5 6 7 8 9 10 11
        
        $lineCount = 1; while (my $line1 = <$fhone>) { chomp $line1; my ($key,@attributes1) = split (/\s+|\t/,$line1); my $attrib_ref2 = $hash{$key.$lineCount}; # Hash um Attribute die in File2 vorkamen aus der Attribut-Liste in File1 rauszufiltern my %filter_attrib = map {$_ => 1}@$attrib_ref2; # Zeile mit Key, Attribute aus File2, gefilterte Attribute aus File1 ausgeben $lineCount++; print $fhout join(' ', $key, @$attrib_ref2, grep {!$filter_attrib{$_}} @attributes1)."\n"; }
        
        habe zwar nicht %100 kontrolliert, aber die hälfte der Ausgabe scheint korrekte Ergebnisse zu liefern. Sobald alles kontrolliert ist gebe ich nochmal Bescheid. :-)
        Ich danke euch vielmals. Ihr seid die Besten. So ein nettes Forum.......1A

View all threads created 2013-08-13 16:47.