Einlesen mehrerer Dateien (Allgemeines zu Perl)

[thread]18288[/thread]

Einlesen mehrerer Dateien

Tags: perl5 Ähnliche Threads

Leser: 26

Articles: hide open all | hide show old branches

+39 replies
Gast Alex

2013-04-23 11:08

Hallo zusammen,

da ich bisher nichts dazu gefunden habe bitte ich euch um Hilfe.
Ich habe mehrere Dateien aus denen ich bestimmte Abschnitte in einer einzigen Datei zusammen fassen möchte und bräuchte da ein wenig Hilfe.

Kann ich mit einem Arrays die verschiedenen Dateien (+Dateihandle) aus einem Verzeichnis speichern und nacheinander abrufen um mit ihnen zu arbeiten?
Wenn ja würde ich dies mit einer foreach-Schleife machen oder? Wie müsste das ungefähr aussehen?

Vielen Dank für jeden hilfreichen Beitrag.
Last edited: 2013-04-23 11:10:53 +0200 (CEST)
- +3 replies
- Raubtier
  
  2013-04-23 11:25
  
  User since
  2012-05-04
  1079 Artikel
  BenutzerIn
  
  Das kommt darauf an...
  
  ...was du genau machen willst
  ...wie groß die Dateien sind
  ...wie viele Dateien es sind
  
  usw.
  
  Bei nicht allzu großen Datenmengen könnte man zum Beispiel erst alle Dateien einlesen und dann entsprechende Bereiche ausgeben.
  
  Wenn du aber eine feste Reihenfolge in der Ausgabedatei hast, also zunächst nur was aus Datei A, dann nur aus Datei B, dann bietet es sich natürlich an, die Eingabedateien der Reihe nach abzuarbeiten.
  - +2 replies
  - Gast Alex
    
    2013-04-23 11:35
    
    Es sind biologische FASTA Daten. Diese sind recht große (ca. 3 - 6 mb) und davon habe ich sehr viele (über 100 Stück) ;)
    
    Jede Datei bezieht sich auf DNA-Daten eines Organismus.
    Hierbei sollen jetzt aus jeder Datei der Name des Organismus und bestimmte DNA-Sequenzen in einer Art Liste in die neue Datei geschrieben werden.
    
    Ich versuche gerade mit opendir alle Dateien erstmal in ein Array einzulesen um dann mit readdir weiterzuarbeiten.
    
    Bisher habe ich ein Programm, dass den Namen ausliest und den ersten Part einer benötigten DNA-Fragmentes.
    Hierbei fehlt mir auch noch eine Problemlösung mit der ich die Datei (als $String gespeichert) nach einem bestimmten Zeichen mehrmals zu durchsuchen kann um an dieser Stelle die Sequenz auszuschneiden... ich wüsste nicht mit welcher Schleife ich dieses Problem lösen könnte, da die foreach-Schleife ja nur für Hashes und Arrays benutzt wird.
    Last edited: 2013-04-23 12:16:35 +0200 (CEST)
    - renee
      
      2013-04-23 15:33
      
      User since
      2003-08-04
      14371 Artikel
      ModeratorIn
      
      Vielleicht hilft Dir https://metacpan.org/module/Bio::FASTASequence::Fi...
      
      Code: (dl )
      
      1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22
      
      #!/usr/bin/perl use strict; use warnings; use File::Find::Rule; use Bio::FASTASequence::File; my $directory = '/path/to/dir/'; my @fasta_files = File::Find::Rule->file->name( '*.fasta' )->in( $directory ); my $parser = Bio::FASTASequence::File->new; for my $fasta_file ( @fasta_files ) { my $hashref = $parser->file( $fasta_file ); for my $org ( keys %{$hashref} ) { print $org,"\n"; my $sequence = $hashref->{$org}->getSequence; # search for anything in the sequence and get part of it... } }
      
      Wie die Suche aussieht und welche Daten Du dann brauchst, hast Du ja nicht gesagt ;-)
      OTRS-Erweiterungen (http://feature-addons.de/)
      Frankfurt Perlmongers (http://frankfurt.pm/)
      --
      
      Unterlagen OTRS-Workshop 2012: http://otrs.perl-services.de/workshop.html
      Perl-Entwicklung: http://perl-services.de/
- +35 replies
- payx
  
  2013-04-23 12:02
  User since
  2006-05-04
  564 Artikel
  BenutzerIn
  Hallo Alex,
  
  hier ein Minimalbeispiel, das Du vielleicht als Ausgangspunkt brauchen kannst:
  
  Code (perl): (dl )
  
  1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36
  
  #!/usr/bin/perl use strict; use warnings; # Das Verzeichnis mit den auszulesenden Dateien: my $sourceDir = 'C:\test'; # Die Datei, in die geschrieben werden soll: my $outFile = "out.txt"; # Das Verzeichnis wird ausgelesen (hier: nur .txt-Dateien) und der Inhalt wird sortiert in ein Array geschrieben: opendir(my $sourceDH, $sourceDir) or die $!; my @allfiles = grep /\.txt$/, sort readdir($sourceDH); closedir $sourceDH; # Die Zieldatei wird zum schreiben geöffnet: open my $outFH, ">", $outFile or die $!; # Schleife über alle Dateien im Array (NB: for ist in Perl dasselbe wie foreach) for my $sourceFile (@allfiles) { # Eine Datei wird lesend geöffnet open my $sourceFH, "<", $sourceDir . '/' . $sourceFile or die $!; # Schleife über die Zeilen in einer Datei while (my $row = <$sourceFH>) { # Text, der zwischen 'Blockanfang' und 'Blockende' liegt (Flipflop-Operator), wird in die Zieldatei geschrieben. print $outFH $row if $row =~ /Blockanfang/ .. $row =~ /Blockende/; } } close $outFH; print "fertig!";
  
  HTH
  Grüße
  payx
  - +31 replies
  - String_Test
    
    2013-04-24 14:14
    User since
    2013-04-23
    19 Artikel
    BenutzerIn
    
    Ich habe mich mal an deinem Minimalbeispiel bedient :) Vielen Dank für dieses!
    Mein Programm an sich tut das, was es machen soll, aber es liest leider nur Dateien aus einem Verzeichnis ein. Jetzt alle 1.000.000 Dateien (okay so viele sind es nicht ganz ;) ) einzeln rauszusuchen und in einen Ordner zusammenzuführen wäre eher kontraproduktiv.
    
    Kann mir einer dabei helfen den oberen Teil meines Codes so zu verändern, dass auch Dateien aus verschiedenen Unterverzeichnissen eines Hauptordners in das Array eingelesen werden können?
    
    Relevant für diese Änderung wären hier wohl nur die Zeilen bis 13 oder?
    
    Hier noch mein Code:
    
    Code (perl): (dl )
    
    1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70
    
    #!/usr/bin/perl #use strict; #use warnings; my $sourceDir = '../Perl/Test'; my $outFile = "out.ffn"; my $i = 0; opendir(my $sourceDH, $sourceDir) or die $!; my @allfiles = grep /\.ffn$/, sort readdir($sourceDH); closedir $sourceDH; open my $outFH, ">>", $outFile or die $!; for my $sourceFile (@allfiles) { open my $sourceFH, "<", $sourceDir . '/' . $sourceFile or die $!; $NameReadIn = <$sourceFH>; close $sourceFH; # Get organism name chop($NameReadIn); $NameReadIn =~s/(>)/_/g; $NameReadIn =~s/(\[)/>/g; $positionName=index($NameReadIn,">"); $ZeichenName = substr($NameReadIn,$positionName,); chop($Name); if ( -z "$outFH" ) { print $outFH "$Name\n"; } else { print $outFH "\n$Name\n"; } # Get sequences: open my $sourceFH, "<", $sourceDir . '/' . $sourceFile or die $!; @DNAReadIn = <$sourceFH>; close $sourceFH; $DNAString=join("",@DNAReadIn); $DNAString =~s/(\]\n)/,/g; while ($DNAString =~ m{,\w{3}(\w{24})}g) { print $outFH "$1"; } $i++; } close $outFH; print "Done! $i files have been processed!\n";
    - +4 replies
    - Raubtier
      
      2013-04-24 14:56
      
      User since
      2012-05-04
      1079 Artikel
      BenutzerIn
      
      Das geht mit dem Modul File::Find ganz einfach:
      
      Code: (dl )
      
      1 2
      
      use File::Find; find(sub{print $File::Find::name}, ".");
      
      Statt die obige sub zu übergeben, kannst du da jetzt entweder:
      - eine kurze sub reinschreiben, die alle Dateien (mit -f testen) in dein Array pusht
      - eine Referenz auf eine benannte sub übergeben, die dann die jeweilige Datei abarbeitet.
      
      Achtung: das find gibt auch Directories aus, du musst also immer gucken, ob es eine "normale" Datei ist: perldoc -f -f
      - +3 replies
      - String_Test
        
        2013-04-24 15:21
        
        User since
        2013-04-23
        19 Artikel
        BenutzerIn
        
        Danke schonmal, leider habe ich subs bisher noch nicht kennengelernt und weiß nicht wie man mit diesen arbeitet :(
        Ich habe eben vergessen zu sagen, dass in den Verzeichnissen und Unterverzeichnissen verschiedene Dateitypen vorhanden sind und ich nur die mit der Endung ".ffn" haben möchte :/
        
        Im Internet gab es i.wo einen Ansatz, den versuche ich gerade anzupassen und vollständig zu verstehen (Siehe folgender Code).
        Lohnt es sich mit dem Ansatz überhaupt weiterzuarbeiten, weil ich denke, dass deine vorgeschlagene sub deutlich kürzer wäre?
        
        Code (perl): (dl )
        
        1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27
        
        #!/usr/bin/perl #use strict; #use warnings; my @dir = '../Perl/Test/'; my $ending = '.ffn'; # Destination file: my $outFile = "out.ffn"; my $dir = ''; for $dir (@dir) { if (opendir( DIR, $dir)) { for (readdir(DIR)) { next if (/^\./); push @dir ,"$dir$_/" if (-d "$dir$_"); &file($dir,$_) if (-f "$dir$_") && $ending eq (/.*(\..*)/)[0]; } closedir DIR; } }
        
        Im Vergleich dazu noch aus meinem aktuellen Programm der Code, der alle .ffn Dateien aus einem Ordner einliest:
        
        Code (perl): (dl )
        
        1 2 3
        
        opendir(my $sourceDH, $sourceDir) or die $!; my @allfiles = grep /\.ffn$/, sort readdir($sourceDH); closedir $sourceDH;
        
        Last edited: 2013-04-24 15:26:08 +0200 (CEST)
        
        Linuxer
        
        2013-04-24 15:27
        
        User since
        2006-01-27
        3891 Artikel
        HausmeisterIn
        
        Renee hat Dir gestern gegen 15:33 Uhr einen Code gezeigt, der rekursiv in einem definierten Verzeichnis mittels File::Find::Rule alle Dateien mit einer definierten Endung einsammelt.
        Was spricht dagegen? ;-)
        
        Code (perl): (dl )
        
        1 2 3 4
        
        use File::Find::Rule; my $directory = '/path/to/dir/'; my @fasta_files = File::Find::Rule->file->name( '*.fasta' )->in( $directory );
        
        meine Beiträge: I.d.R. alle Angaben ohne Gewähr und auf Linux abgestimmt!
        Die Sprache heisst Perl, nicht PERL. - Bitte Crossposts als solche kenntlich machen!
        
        Raubtier
        
        2013-04-24 16:05
        
        User since
        2012-05-04
        1079 Artikel
        BenutzerIn
        
        2013-04-24T13:21:20 String_Test
        Danke schonmal, leider habe ich subs bisher noch nicht kennengelernt und weiß nicht wie man mit diesen arbeitet :(
        
        Oh, subs sind Unterprogramme, also etwas, das man mehrfach aufrufen kann oder einfach nur zum Strukturieren gebrauchen kann. Wenn du subs nicht kennst, solltest du DRINGEND ein Tutorial oder Buch lesen.
        
        Ansonsten: File::Find::Rule ist schöner als File::Find, da haben Renee und Linuxer recht. Wenn du manchmal auf RHEL 5 (oder ähnlichem) laufen musst und somit nur Perl 5.8 zur Verfügung hast, dann ist File::Find::Rule allerdings noch kein Core-Modul.
    - +26 replies
    - payx
      
      2013-04-24 17:23
      
      User since
      2006-05-04
      564 Artikel
      BenutzerIn
      
      Hallo String_Test,
      
      wie von Raubtier und Linuxer empfohlen kannst Du File::Find verwenden.
      
      Hier eine andere mögliche Lösung mit File::Util. Ich habe mein erstes Beispiel umgeschrieben, sodass Du die entsprechenden Anpassungen ggf. wieder selbst machen musst.
      
      Das Quellverzeichnis wir rekursiv ausgelesen, d.h. mit allen Unterverzeichnissen (--recurse).
      
      Eine dringende Empfehlung zu Zeile 3 und 4 in Deinem Script: Kommentiere use strict; und use warnings; nicht aus. Diese beiden Pragmas sind wirklich sehr nützlich. Wenn Dein Script damit nicht läuft, suche und behebe den Fehler.
      
      Code (perl): (dl )
      
      1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
      
      #!/usr/bin/perl use strict; use warnings; use File::Util; # Das Verzeichnis mit den auszulesenden Dateien: my $sourceDir = 'C:\test'; # Die Datei, in die geschrieben werden soll: my $outFile = "out.txt"; # Die Zieldatei wird zum schreiben geöffnet: open my $outFH, ">", $outFile or die $!; # File-Util-Objekt erzeugen: my $fu = File::Util->new(); # Das Verzeichnis wird ausgelesen (hier: nur .txt-Dateien) und der Inhalt wird in ein Array geschrieben: my @allfiles = grep /\.txt$/, $fu->list_dir($sourceDir, qw(--files-only --recurse)); # Schleife über alle Dateien im Array (NB: for ist in Perl dasselbe wie foreach) for my $sourceFile (@allfiles) { # Eine Datei wird lesend geöffnet open my $sourceFH, "<", $sourceFile or die $!; # Schleife über die Zeilen in einer Datei while (my $row = <$sourceFH>) { # Text, der zwischen 'Blockanfang' und 'Blockende' liegt (Flipflop-Operator), wird in die Zieldatei geschrieben. print $outFH $row if $row =~ /Blockanfang/ .. $row =~ /Blockende/; } close $sourceFH; } close $outFH; print "fertig!";
      
      HTH
      Grüße
      payx
      Last edited: 2013-04-24 17:25:01 +0200 (CEST)
      - +25 replies
      - String_Test
        
        2013-04-24 17:48
        
        User since
        2013-04-23
        19 Artikel
        BenutzerIn
        
        Verdammt ich war mir sicher, dass man das oben mit dem # vor den beiden Befehlen hinschreibt :D Die Programme haben alle funktioniert nur jetzt hat er gemeckert wegen den nicht deklarierten Variablen ;)
        
        Danke euch beiden. Beide Module funktionieren und finden aus allen Verzeichnissen die entsprechenden .ffn Dateien :)
        Allerdings wird jetzt in Zeile 41 folgender Fehler angezeigt:
        
        "Datei oder Verzeichnis nicht gefunden at fileutil.pl line 41."
        
        Es ist schon spät und ich finde den Fehler nicht :(
        Wenn ich das Array mit den Dateien printen lasse, gibt Perl mir die Pfade der einzelnen Dateien aus. Hat Perl nun nur den Pfad oder auch den Dateiinhalt im Array gespeichert? Weil ich den ja bearbeiten möchte :)
        
        Code (perl): (dl )
        
        1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45
        
        #!/usr/bin/perl use strict; use warnings; use File::Util; # Destination file: my $outFile = "out_fileutil.ffn"; # For-loop counter: my $i = 0; # File-Util-Objekt erzeugen: my $fu = File::Util->new(); # Directory which includes files: my $sourceDir = '../Perl/Test'; # Directory gets read out (only ".ffn" files) and contents will be sorted and written to an array: opendir(my $sourceDH, $sourceDir) or die $!; # Das Verzeichnis wird ausgelesen (hier: nur .txt-Dateien) und der Inhalt wird in ein Array geschrieben: my @allfiles = grep /\.ffn$/, $fu->list_dir($sourceDir, qw(--files-only --recurse)); #my @allfiles = grep /\.ffn$/, sort readdir($sourceDH); closedir $sourceDH; ########################################################################### # Opens destination file to read out: open my $outFH, ">>", $outFile or die $!; # Loop over all files in the array: for my $sourceFile (@allfiles) { # One file gets opened to get read out: open my $sourceFH, "<", $sourceDir . '/' . $sourceFile or die $!; my $NameReadIn = <$sourceFH>; close $sourceFH;
        
        +24 replies
        
        payx
        
        2013-04-24 18:07
        
        User since
        2006-05-04
        564 Artikel
        BenutzerIn
        
        Hallo String_Test,
        
        die Zeilen 22 und 28 können jetzt wegfallen, weil das Verzeichnis (mit Unterverzeichnissen) ja jetzt von File::Util ausgelesen wird. Die Variable $sourceDH wird nicht mehr gebraucht.
        
        Zeile 41 musst Du wie in meinem zweiten Beispielscript anpassen:
        
        Code (perl): (dl )
        
        open my $sourceFH, "<", $sourceFile or die $!;
        
        Wie Du sicher schon gesehen hast, sind im Array jetzt die vollständigen Dateipfade und nicht mehr nur die Dateinamen gespeichert.
        
        Grüße
        payx
        
        +23 replies
        
        String_Test
        
        2013-04-29 09:56
        
        User since
        2013-04-23
        19 Artikel
        BenutzerIn
        
        Danke erstmal an alle für eure schnelle und tolle Hilfe :) ihr habt mir damit sehr geholfen und ich konnte einige neue Sachen in Perl lernen (z.B. über Module).
        Das Programm funktioniert, allerdings könnte ich weinen :'( da die mir genannten Anforderungen an das Programm zwar erfüllt wurden, aber nicht korrekt waren. Das heißt ich soll das Programm jetzt nochmal überarbeiten, allerdings kann ich das mit meinem aktuellen Wissensstand unmöglich alleine :O
        
        Könnt ihr mir grob sagen ob und wenn ja wie folgende Sachen mit Perl umsetzbar sind?
        
        1) Beim Einlesen der Dateien innerhalb eines Ordners überprüfen, ob sich zwei Dateien(mit .ffn Format) darin befinden und diese ineinander überführen? Ich habe ja bisher ein Array benutzt um alle nacheinander einzulesen und hier habe ich keinen Ansatz wie ich die im Array eingespeicherten Dateien auf diese Weise bearbeiten soll, oder muss ich hier eine komplett andere Lösung anwenden anstatt des Arrays? Gibt es für diese Überprüfung i.welche bereits erstellten Module?
        
        +22 replies
        
        Linuxer
        
        2013-04-29 10:32
        
        User since
        2006-01-27
        3891 Artikel
        HausmeisterIn
        
        Prinzipiell ist das in Perl umsetzbar.
        
        Ich finde allerdings die (neue) Spezifikation nicht wirklich klar(er)...
        
        Meine Deutung:
        
        - es existiert ein Grundverzeichnis
        - in diesem Grundverzeichnis soll rekursiv nach Dateien, die auf ".ffn" enden, gesucht werden
        - wenn in einem (Unter-)Verzeichnis 2 .ffn-Dateien gefunden wurden, sollen diese zwei zusammengeführt werden
        
        Unklar ist IMHO:
        - was soll mit den originalen Dateien nach der Zusammenführung passieren?
        - was soll passieren, wenn mehr als 2 Dateien in einem (Unter-)Verzeichnis gefunden werden?
        - Beschränkt sich das Zusammenführen auf Dateien im gleichen Verzeichnis, oder ist das auch verzeichnisübergreifend gewünscht (also /dir/01.ffn und /dir/subdir/02.ffn zusammenführen)?
        meine Beiträge: I.d.R. alle Angaben ohne Gewähr und auf Linux abgestimmt!
        Die Sprache heisst Perl, nicht PERL. - Bitte Crossposts als solche kenntlich machen!
        
        +21 replies
        
        String_Test
        
        2013-04-29 11:04
        
        User since
        2013-04-23
        19 Artikel
        BenutzerIn
        
        Genau deine Deutung ist korrekt :)
        
        Das Grundverzeichnis sind alle bisher sequenzierten Bakteriengenome.
        Und hierbei kommen die zweifachen .ffn Dateien durch zwei vorhandene Chromosome der jeweiligen Spezies zustande. Sprich zwei Chromosome/ zwei .ffn Dateien sind hier die Obergrenze. Die Originaldateien sollen unverändert bleiben und nur ausgelesen werden.
        
        Es sollen nur der Inhalt der beiden .ffn Dateien (falls zwei vorhanden) aus einem Ordner zusammengeführt werden, da dies die Gene eines Bakteriums sind.
        Ist das denn auch innerhalb eines Arrays durchführbar?
        So dass z.b. [0] Chromosom Bakterium A, [1] Chromosom Bakterium B, [2] (1.Chromosom + 2. Chromosom) BakteriumC, ... gespeichert sind? Ich stelle mir das schwierig vor in einer/meiner Einleseschleife soviel zusätzliche Arbeit zu verrichten.
        
        Linuxer
        
        2013-04-29 11:07
        
        User since
        2006-01-27
        3891 Artikel
        HausmeisterIn
        
        Hi,
        
        hier mal ein Schnellschuß, der alle .ffn pro Verzeicnis ausliest.
        
        Code (perl): (dl )
        
        1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51
        
        #! /usr/bin/perl use strict; use warnings; # https://www.perl-community.de/bat/poard/thread/18288 use File::Find; # for searching for files/directories use File::Spec::Functions qw( catfile ); # for creating portable file-paths use Cwd; # for determing current work directory my @directories = ( cwd, # search in current work directory ); my @matches; # storage for matching file paths sub find_ffn_files { return if ! -d $File::Find::name; # skip if not a directory my $dir = $File::Find::name; # short name of directory opendir my $dh, $dir or die "Cannot open '$dir': $!\n"; # read '.ffn' files from directory and create full file path my @files = map { catfile( $dir, $_ ) } grep { m/\.ffn$/ } readdir $dh; closedir $dh; # create array of array for matches push @matches, \@files if @files; } # search for files and fill @matches find( \&find_ffn_files, @directories ); # check @matches for my $matching_dir ( @matches ) { # each matching_dir is an array reference which contains # the full paths of the files found # process .ffn files per directory print join( " ", sort { $a cmp $b } @{ $matching_dir } ), "\n"; }
        
        meine Beiträge: I.d.R. alle Angaben ohne Gewähr und auf Linux abgestimmt!
        Die Sprache heisst Perl, nicht PERL. - Bitte Crossposts als solche kenntlich machen!
        
        +19 replies
        
        Linuxer
        
        2013-04-29 21:00
        
        User since
        2006-01-27
        3891 Artikel
        HausmeisterIn
        
        Hi,
        hier nochmal ein zweiter Ansatz (basiert auf meinem ersten, nur leicht abgewandelt).
        
        Hier wird ein Hash-of-Arrays befüllt.
        Der Hash-Key ist das Verzeichnis, in dem die Dateien gefunden wurden, der Value ist eine Array-Referenz mit den reinen Dateinamen.
        
        Anstatt der print-Anweisung (in der abschließende for-Schleife) wird nun eine Subroutine aufgerufen,
        die die Auswertung der Dateien beispielhaft vornehmen soll.
        
        Code (perl): (dl )
        
        1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68
        
        #! /usr/bin/perl use strict; use warnings; # https://www.perl-community.de/bat/poard/thread/18288 use File::Find; # for searching for files/directories use File::Spec::Functions qw( catfile ); # for creating portable file-paths use Cwd; # for determing current work directory my @directories = ( cwd, # search in current work directory ); my %match; # storage for matching file paths sub combine_to { my $newfile = shift; my $directory = shift; my $filesRef = shift; my $outfile = catfile( $directory, $newfile ); open my $wh, '>', $outfile or die "open(w,$outfile) failed: $!\n"; for my $file ( @$filesRef ) { my $infile = catfile( $directory, $file ); open my $rh, '<', $infile or die "open(ro,$infile) failed: $!\n"; print $wh (<$rh>); close $rh; } close $wh or die "close($outfile) failed: $!\n"; } sub find_ffn_files { return if ! -d $File::Find::name; # skip if not a directory my $dir = $File::Find::name; # short name of directory opendir my $dh, $dir or die "Cannot open '$dir': $!\n"; # read '.ffn' files from directory and create full file path my @files = grep { m/\.ffn$/ } readdir $dh; closedir $dh; # create hash of array for matches; we must have found exactly 2 files $match{$dir} = \@files if 2 == @files; } # search for files and fill @matches find( \&find_ffn_files, @directories ); # check %match for my $dir ( keys %match ) { # combine found files into 'combined.ffn' in corresponding directory combine_to( 'combined.ffn', $dir => $match{$dir} ); }
        
        meine Beiträge: I.d.R. alle Angaben ohne Gewähr und auf Linux abgestimmt!
        Die Sprache heisst Perl, nicht PERL. - Bitte Crossposts als solche kenntlich machen!
        
        +18 replies
        
        String_Test
        
        2013-04-30 14:25
        
        User since
        2013-04-23
        19 Artikel
        BenutzerIn
        
        Danke sehr Linuxer, allerdings überfordert dein Code mich zurzeit noch.
        Dein ganzer Code dient jetzt dazu zu überprüfen, ob in einem Verzeichnis zwei .ffn Dateien vorhanden sind? Und anscheinend werden diese in einer combined.ffn Datei gespeichert, bei meinem Testlauf kam so eine Datei aber nicht zustande.
        
        Ich glaube bei solchen größeren Projekten sollte ich anfangs besser planen und das geplante dann Schritt für Schritt umsetzen.
        
        Hier nochmal fürs Protokoll die Anforderungen an das Programm:
        
        Auszulesen ist ein Verzeichnis (Inhalt: Ein Ordner pro Bakterium mit entsprechendem Genom im .ffn Format/ teilweise zwei .ffn Dateien in einem Ordner vorhanden. Weiterhin sind Dateien in anderen Formaten vorhanden, die aber nicht benötigt werden)
        
        Eine .ffn Datei besteht in der Regel aus folgenden Zeilen:
        
        >Name des codierenden Enzyms 1 [Organismus Name]
        ATGCGCTAGGAGATGCGCGCTCTGGATAAG
        >Name des codierenden Enzyms 2 [Organismus Name]
        ATGAGAGAATTTGAGAGTTTAGGATTTGGGA
        .....
        
        Benötigt wird: 1 Zieldatei mit folgendem Inhalt:
        
        >Name des jeweiligen Organismus (Name aus Ordner übernehmen möglich? oder besser aus Datei extrahieren?)
        Gensequenzen á la: CGCTAGGAGATGCGCGCTCTGAAGAGAGAATTTGAGAGTTTAGGATTTG
        
        Bei den Gensequenzen soll jede Sequenz mit den Stellen 4-28 gespeichert werden (die ersten 3 sollen wegfallen und die folgenden 24 Zeichen werden benötigt). Zudem sollen alle Gensequenzen aus den einzelnen Dateien konkateniert gespeichert werden. Wenn zwei .ffn Dateien vorhanden sind, sollen die Gensequenzen der zweiten Datei an die der ersten angehangen werden.
        
        Bisher habe ich das ganze mit Schleifen versucht zu lösen, aber an manchen Stellen scheitert das Konstrukt. Zuerst wird der Namen aus der Datei ausgelesen, dieser in die Zieldatei geschrieben und dann mit einer weiteren Schleife der Dateiinhalt (erst in einem Array gespeichert, dann zur Bearbeitung in einen String umgewandelt) Enzym für Enzym abgearbeitet und dieser konkateniert unter den Namen geschrieben.
        
        Den Namen habe ich aus der ersten Zeile jeder Datei gezogen, wobei es hier auch .ffn Dateien ohne die erste Zeile gibt -.- dies habe ich aber soweit in den Griff bekommen, dass er dann die nächstmögliche Namenszeile nutzt, jedoch werden hierbei immer alle .ffn Dateien eingelesen und es entstehen bei 2 .ffn Dateien auch 2. Namenseinträge.
        
        Dies versuche ich gerade zu umgehen, indem das Programm die Zieldatei nach der im $Name gespeicherten Zeichenfolge abgleicht und falls vorhanden, die Nameneintragung abbricht und mit dem Einlesen der Sequenzen weiter macht, wobei das auch noch nicht richtig funktioniert.
        Das wäre nach meiner Laieneinschätzung allerdings auch ein sehr langsamer und uneffizienter Algorithmus oder?
        
        Sollte ich nun mit diesem Schleifenkonstrukt arbeiten oder gibt es da effizientere Wege? P.S. Die Datenmenge bezieht sich auf mehrere GB :O
        
        +11 replies
        
        Linuxer
        
        2013-04-30 15:07
        
        User since
        2006-01-27
        3891 Artikel
        HausmeisterIn
        
        Du lieferst sehr wenig Informationen, daher kann man schwer etwas zu Deinem "Fehler" sagen.
        
        Wenn Du konkreter würdest, wo Dir der Code unklar ist, kann ich Dir auch Details nachliefern....
        
        Mein Code von gestern 21:00 macht folgendes:
        
        er ermittelt das aktuelle Verzeichnis
        in diesem Verzeichnis und den Unterverzeichnissen sucht er nach .ffn Dateien
        findet er genau zwei in einem Verzeichnis, übernimmt er den Verzeichnisnamen und die Dateinamen
        findet er nur eine Datei oder mehr als zwei, ignoriert er diese Funde
        (wenn nur eine Datei da ist, war der Gedanke: wozu die Arbeit?)
        für die gefundenen Dateien ruft er die combine_to()-Routine auf
        diese bekommt den zu erstellenden Dateinamen, das Fund-Verzeichnis und die Dateinamen übergeben
        
        Bei meinem Test daheim hat dieser Code funktioniert.
        Da ich nicht weiß, wie der von Dir ausgeführte Code aussieht (mein Original oder eine modifizierte Variante), ist nur schwer was zum "Fehler" zu sagen. Auch verlierst Du kein Wort darüber, wo Du das Skript ausgeführt hast. Bist Du ins Verzeichnis gewechselt, wo die Dateien liegen?
        
        Zunächst sollte sichergestellt sein, dass ein Code überhaupt Dateien findet, die er verarbeiten würde.
        Also nochmal überarbeitet; wichtige Änderungen:
        
        das Datenverzeichnis muss nun explizit angegeben werden; Skript anpassen!
        Funde mit einer oder zwei Dateien werden jetzt gesammelt
        Keine Verarbeitung, nur Kontrollausgabe durch combine_to()
        
        (edit: konnte jetzt allerdings nicht testen...)
        
        Code (perl): (dl )
        
        1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62
        
        #! /usr/bin/perl use strict; use warnings; # https://www.perl-community.de/bat/poard/thread/18288 use File::Find; # for searching for files/directories use File::Spec::Functions qw( catfile ); # for creating portable file-paths use Cwd; # for determing current work directory my @directories = ( # where do you want to search? '/path/to/data/dir', # herein are the .ffn files; ADJUST THIS PATH ); my %match; # storage for matching file paths # this routine is to be changed to do the job of data extraction and combination # ADJUST THIS CODE if test run was successful sub combine_to { my $newfile = shift; my $directory = shift; my $filesRef = shift; # DEBUG output warn <<DEBUGTEXT; DATADIR: '$directory' OUTPUTFILE: '$newfile' DATAFILES: @{$filesRef} DEBUGTEXT } sub find_ffn_files { return if ! -d $File::Find::name; # skip if not a directory my $dir = $File::Find::name; # short name of directory opendir my $dh, $dir or die "Cannot open '$dir': $!\n"; # read '.ffn' files from directory and create full file path my @files = grep { m/\.ffn$/ } readdir $dh; closedir $dh; # create hash of array for matches; # we must have found 1 or exactly 2 files $match{$dir} = \@files if @files && 2 >= @files; } # search for files and fill @matches find( \&find_ffn_files, @directories ); # check %match for my $dir ( keys %match ) { # combine found files into 'combined.ffn' in corresponding directory combine_to( 'combined.ffn', $dir => $match{$dir} ); }
        
        Last edited: 2013-04-30 15:19:57 +0200 (CEST)
        meine Beiträge: I.d.R. alle Angaben ohne Gewähr und auf Linux abgestimmt!
        Die Sprache heisst Perl, nicht PERL. - Bitte Crossposts als solche kenntlich machen!
        
        +10 replies
        
        String_Test
        
        2013-04-30 15:44
        
        User since
        2013-04-23
        19 Artikel
        BenutzerIn
        
        Ich habe bei deinem neuesten Code, ebenso wie beim alten lediglich das auszulesende Verzeichnis abgeändert:
        
        Code (perl): (dl )
        
        1 2 3
        
        my @directories = ( # where do you want to search? '../TEST/Bakterien', # herein are the .ffn files; ADJUST THIS PATH );
        
        Das Programm befindet sich im Test Ordner neben dem Ordner Bakterien, der die Unterverzeichnisse mit den .ffn Dateien erhält. Aber die combined Datei suche ich noch vergebens, fehlt da nicht ein Befehl, der die Datei erstellt oder ist das am Ende deines Codes schon mit inbegriffen?
        
        +9 replies
        
        Linuxer
        
        2013-04-30 16:09
        
        User since
        2006-01-27
        3891 Artikel
        HausmeisterIn
        
        Der neue Code generiert derzeit keine Dateien. Der soll nur Ausgaben generieren.
        
        Gib mal den kompletten Pfad zum Datenverzeichnis an, nicht '../TEST/Bakterien'.
        meine Beiträge: I.d.R. alle Angaben ohne Gewähr und auf Linux abgestimmt!
        Die Sprache heisst Perl, nicht PERL. - Bitte Crossposts als solche kenntlich machen!
        
        +8 replies
        
        String_Test
        
        2013-04-30 16:16
        
        User since
        2013-04-23
        19 Artikel
        BenutzerIn
        
        Wo beginne ich und was muss alles in so einen genauen Dateipfad rein? Der nächst höhere Ordner heißt Persönlicher Ordner, der aber manchmal auch den Benutzer bezeichnet und darüber befindet sich der Ordner Home.
        
        Also würde das dann '/Home/Username/Test/Bakterien' lauten? Bei mehrmaligem Ausprobieren verschiedener Kombinationen kommt immer folgender Fehler:
        
        Quote
        Datei oder Verzeichnis nicht gefunden
        at Linuxercode.pl line 54
        
        +7 replies
        
        Linuxer
        
        2013-04-30 16:28
        
        User since
        2006-01-27
        3891 Artikel
        HausmeisterIn
        
        Da ich keine Ahnung habe, welches System (Linux, Mac, WinDOS, ...) Du hast, ist da nur schwer zu raten...
        
        Unter Linux wäre ein Pfad durchaus so wie Du es angegeben hast. Dabei ist Groß- und Kleinschreibung zu beachten.
        
        Unter Windows ist ein lokaler Pfad in der Regel ein Laufwerksbuchstabe und dann die Pfadangabe; z.B. C:/Documents and Settings/Username/bla.
        
        Wechsel doch mal in einem Terminal (Linux)/einer Eingabeaufforderung (Windows) in das Bakterien-Verzeichnis und mache dann:
        
        auf Linux ein pwd
        auf Windows ein echo %CD%
        
        und verwende den angezeigten Pfad im Skript...
        meine Beiträge: I.d.R. alle Angaben ohne Gewähr und auf Linux abgestimmt!
        Die Sprache heisst Perl, nicht PERL. - Bitte Crossposts als solche kenntlich machen!
        
        +6 replies
        
        String_Test
        
        2013-04-30 16:34
        
        User since
        2013-04-23
        19 Artikel
        BenutzerIn
        
        Ich nutze Linux (Ubuntu 12.04 LTS) und bei der Ausgabe kommt genau das heraus was ich eingegeben habe, Groß- und Kleinschreibung mit inbegriffen.
        
        Ausgabe:
        Quote
        /home/alexander/TEST/Bakterien
        
        Wenn ich allerdings mit '../Test/Bakterien' als Verzeichnis das Programm starte, bleibt der o.g. Fehler aus, allerdings auch die Ausgabe.
        
        Ich habe noch eine andere Frage wenn dein Code bei mir funktionieren sollte inwiefern kann das helfen die zwei gefundenen Dateien aus einem Verzeichnis zusammen zufügen? Oder bräuchte ich dafür ein weiteres Programm?
        Last edited: 2013-04-30 16:36:05 +0200 (CEST)
        
        +5 replies
        
        Linuxer
        
        2013-04-30 16:43
        
        User since
        2006-01-27
        3891 Artikel
        HausmeisterIn
        
        Wenn mein Programm bei Dir Ausgaben generieren würde, dann wäre der Code der Routine combine_to() anzupassen, um die gefundenen Daten zu verarbeiten.
        meine Beiträge: I.d.R. alle Angaben ohne Gewähr und auf Linux abgestimmt!
        Die Sprache heisst Perl, nicht PERL. - Bitte Crossposts als solche kenntlich machen!
        
        +4 replies
        
        String_Test
        
        2013-04-30 16:58
        
        User since
        2013-04-23
        19 Artikel
        BenutzerIn
        
        Wie bitte? Du meinst bei der sub combine_to muss was angepasst werden?
        Das gerade ist das erstes Mal, dass ich mit subs in Berührung komme, von daher weiß ich nicht was jetzt genau gefragt ist :(
        
        Habe gerade den Kommentar gelesen, dass das noch adjustiert werden muss. Der Testlauf war erfolgreich, da kein Fehler (von warn und dem Debugtext) ausgegeben wurde.
        Last edited: 2013-04-30 17:08:44 +0200 (CEST)
        
        +3 replies
        
        Linuxer
        
        2013-04-30 17:23
        
        User since
        2006-01-27
        3891 Artikel
        HausmeisterIn
        
        Ja, der Code
        
        Code (perl): (dl )
        
        1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
        
        # this routine is to be changed to do the job of data extraction and combination # ADJUST THIS CODE if test run was successful sub combine_to { my $newfile = shift; my $directory = shift; my $filesRef = shift; # DEBUG output warn <<DEBUGTEXT; DATADIR: '$directory' OUTPUTFILE: '$newfile' DATAFILES: @{$filesRef} DEBUGTEXT }
        
        muss später angepasst werden, um die Daten wie gewünscht zu verarbeiten.
        
        Aber das ist doch schon wieder vorgegriffen. Dein Problem besteht doch mindestens aus 2 Schritten:
        
        Schritt 1: suche und finde Dateien
        Schritt 2: verarbeite die gefundenen Dateien
        
        Bleib doch erstmal beim Schritt 1 und grübel (noch) nicht über Schritt 2 nach.
        Oder bekommst Du mittlerweile Ausgaben über gefundene Dateien?
        
        Meiner Meinung nach ist es relativ sinnfrei, sich Gedanken um Schritt 2 zu machen, solange Schritt 1 kein brauchbares/gewünschtes Ergebnis liefert.
        
        Ich kann es derzeit weder nachvollziehen noch verstehen, warum bei absoluter Pfadangabe eine Fehlermeldung kommt, dass das Verzeichnis nicht gefunden würde und bei relativer Pfadangabe keine Meldung, aber auch kein Ergebnis... Da stimmen irgendwelche Angaben nicht...
        
        Ich habe jetzt mal zum Testen folgende Struktur angelegt:
        
        Code: (dl )
        
        1 2 3 4 5 6 7 8 9 10 11 12
        
        /home/linuxer/testing/bioperl ├── Bakterien │ ├── emil │ │ └── emil.ffn │ ├── fritz_anna │ │ ├── anna.ffn │ │ └── fritz.ffn │ └── hans │ └── hans.ffn └── recombine.pl 4 directories, 5 files
        
        "recombine.pl" ist dabei mein Testskript.
        Wenn ich das jetzt ausführe (Pfadangabe im Skript: /home/linuxer/testing/bioperl ) bekomme ich die folgende Ausgabe:
        
        Code: (dl )
        
        1 2 3 4 5 6 7 8 9 10 11
        
        DATADIR: '/home/linuxer/testing/bioperl/Bakterien/emil' OUTPUTFILE: 'combined.ffn' DATAFILES: emil.ffn DATADIR: '/home/linuxer/testing/bioperl/Bakterien/hans' OUTPUTFILE: 'combined.ffn' DATAFILES: hans.ffn DATADIR: '/home/linuxer/testing/bioperl/Bakterien/fritz_anna' OUTPUTFILE: 'combined.ffn' DATAFILES: anna.ffn fritz.ffn
        
        Wenn Du solch eine Ausgabe nicht hast, dann scheint mir da noch was nicht korrekt zu sein.
        Ist die Dateiendung wirklich nur .ffn oder evtl. auch .FFN?
        Dann ist nämlich der Code anzupassen... Unter Linux ist Groß- und Kleinschreibung wie schon erwähnt zu beachten!
        Last edited: 2013-04-30 17:28:20 +0200 (CEST)
        meine Beiträge: I.d.R. alle Angaben ohne Gewähr und auf Linux abgestimmt!
        Die Sprache heisst Perl, nicht PERL. - Bitte Crossposts als solche kenntlich machen!
        
        +2 replies
        
        String_Test
        
        2013-04-30 17:46
        
        User since
        2013-04-23
        19 Artikel
        BenutzerIn
        
        Jetzt klappt es auf einmal O.o
        Habe den kompletten Verzeichnispfad nochmal neu geschrieben, obwohl Groß- und Kleinschreibung bereits korrekt waren und jetzt bekomme ich die selbe Ausgabe wie du sie bekommst.
        
        Mein Problem gerade ist wo genau ich hin möchte..
        Ich soll jetzt versuchen die gefundenen Dateien zu verarbeiten. Ich vermute mit einfachen Befehlen, wie die gefundenen Dateien in z.B. ein Array speichern oder dergleichen. Kann ich auf diese Weise denn auch auf den Inhalt zugreifen? Oder zwei Dateien aus einem Verzeichnis zusammenführen, wobei hier das ausgelesen Verzeichnis unverändert bleiben soll? Da fällt mir nichts ein wie ich das Zusammenführen beider in eine dritte Datei anstellen soll und diese anschließend in das Array z.b. zu überführen.
        
        Linuxer
        
        2013-04-30 18:11
        
        User since
        2006-01-27
        3891 Artikel
        HausmeisterIn
        
        offtopic: ich bin jetzt erstmal offline. komme entweder später am abend, oder morgen/übermorgen zu einer antwort...
        meine Beiträge: I.d.R. alle Angaben ohne Gewähr und auf Linux abgestimmt!
        Die Sprache heisst Perl, nicht PERL. - Bitte Crossposts als solche kenntlich machen!
        
        +6 replies
        
        Linuxer
        
        2013-05-01 22:51
        
        User since
        2006-01-27
        3891 Artikel
        HausmeisterIn
        
        Das Finden der Dateien scheint ja nun gelöst zu sein, daher hier jetzt mal mein Versuch, die Daten zu lesen und zu kombinieren.
        Neben dem Umbau der combine_to() Routine, habe ich den Namen der Ausgabedatei in eine globalen Variablen "ausgelagert"; diese Datei wird nun beim Dateien Finden ignoriert...
        
        Derzeit werden die eingesammelten Daten erstmal im Arbeitsspeicher zusammengestellt, bevor sie in die
        Ausgabedatei geschrieben werden. Die Dateien werden dabei nacheinander eingelesen und die Daten stehen dementsprechend auch so wie sie eingelesen wurden in der Ausgabedatei... (Also zuerst alles aus Datei 1, danach alles aus Datei 2.)
        
        Code (perl): (dl )
        
        1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99
        
        #! /usr/bin/perl use strict; use warnings; # https://www.perl-community.de/bat/poard/thread/18288 use File::Find; # for searching for files/directories use File::Spec::Functions qw( catfile ); # for creating portable file-paths use Cwd; # for determing current work directory my @directories = ( # where do you want to search? '/dev/shm/data', # herein are the .ffn files; ADJUST THIS PATH ); my $outfile_name = 'combined.ffn'; my %match; # storage for matching file paths # this routine extracts and combines the data sub combine_to { my $newfile = shift; # output filename my $directory = shift; # files' directory my $filesRef = shift; # reference to array of filenames # create full path of output file my $outfile = catfile( $directory, $newfile ); my $organism = ''; # name of organism my @sequences; # list of extracted gene sequences # open output file for writing open my $outfh, '>', $outfile or die "open(w, $outfile) failed: $!\n"; # dereference $filesRef and iterate through the input filenames for my $infile ( @{ $filesRef } ) { # create full path of each input file $infile = catfile( $directory, $infile ); # open input file for reading open my $infh, '<', $infile or die "open(ro,$infile) failed: $!\n"; # read input file linewise while ( my $line = <$infh> ) { # skip empty lines next if $line =~ m{^\s*$}; # if organism's name is still empty, extract it from comment/ # description lines (so hopefully taken only from 1st line) if ( $organism eq '' && $line =~ m/^>.+\[([^]]+)\]/ ) { $organism = $1; } # extract sequence elsif ( $line =~ m/\A...([ATGC]{25})/ ) { push @sequences, $1; } } close $infh; } # print collected data to output file print $outfh "> $organism\n", @sequences; close $outfh or die "close($outfile) failed: $!\n"; } sub find_ffn_files { return if ! -d $File::Find::name; # skip if not a directory my $dir = $File::Find::name; # short name of directory opendir my $dh, $dir or die "Cannot open '$dir': $!\n"; # read '.ffn' files from directory and create full file path my @files = grep { m/\.ffn$/ && $_ ne $outfile_name } readdir $dh; closedir $dh; # create hash of array for matches; # we must have found 1 or exactly 2 files $match{$dir} = \@files if @files && 2 >= @files; } # search for files and fill @matches find( \&find_ffn_files, @directories ); # check %match for my $dir ( keys %match ) { # combine found files into 'combined.ffn' in corresponding directory combine_to( $outfile_name, $dir => $match{$dir} ); }
        
        Last edited: 2013-05-01 23:27:36 +0200 (CEST)
        meine Beiträge: I.d.R. alle Angaben ohne Gewähr und auf Linux abgestimmt!
        Die Sprache heisst Perl, nicht PERL. - Bitte Crossposts als solche kenntlich machen!
        
        +5 replies
        
        String_Test
        
        2013-05-02 12:24
        
        User since
        2013-04-23
        19 Artikel
        BenutzerIn
        
        Vielen Dank für deine große Mühe :)
        Ich habe dein Programm jetzt bei mir ans Laufen bekommen, allerdings verstehe ich gerade nicht was genau es auf welche Weise macht.
        
        Es nimmt die .ffn Datei bzw. zwei dieser Dateien (wenn selbes Verzeichnis) und schreibt deren Inhalt in eine neue Datei? in dieser ist die erste Zeile immer der Name, gefolgt von einer Sequenz oder?
        
        In meinen outfiles scheint aber die ganze Sequenz zu sein oder zumindest viel zuviel an Sequenz. Auch stimmt i.wie das Verfahren nicht oder kann dein Programm die 24 Zeichen nach den ersten 3 Zeichen einer Enzym-Sequenz gar nicht ausschneiden und ich muss dies noch implementieren? Dann hätte ich ein Problem aus den outfiles den Beginn der jeweiligen Enzymsequenzen zu ermitteln.
        
        Hier mal zum Vergleich der Beginn von zwei Dateien und deren outfiles.
        
        Quote
        >gb|CP000828.1|:c2319-1627 NUDIX hydrolase [Acaryochloris marina MBIC11017]
        ATGCCCTATACCTATGATTATCCGCGC
        
        >gb|CP000828.1|:2404-3255 hypothetical protein AM1_0004 [Acaryochloris marina MBIC11017]
        ATGCAACAGCATTTTGAAGTCGCGGCC
        
        outfile:
        
        > Acaryochloris marina MBIC11017
        CCCTATACCTATGATTATCCGCGCCTCGATCTCAAAGTCCTACTGATT
        
        _________________________________________________________________________
        
        >gb|CP000350.1|:c1908-1 Glucose inhibited division protein A [Leptospira borgpetersenii serovar Hardjo-bovis JB197]
        ATGATCGAATCCAAAAACCAATCTTTT
        
        outfile:
        
        > Leptospira borgpetersenii serovar Hardjo-bovis JB197
        ATAGTTGTATCCATAGCAAACCAG
        
        Bei dem ersten Beispiel stimmt die erste Enzymsequenz aber die zweite angehangene ist nicht korrekt. Bei dem Zweiten sehe ich überhaupt keine Übereinstimmung zwischen der zu entnehmenden und der entnommenen Sequenz :(
        
        Dafür müsste in deinem Code folgende Zeile verantwortlich sein:
        
        Code (perl): (dl )
        
        elsif ( $line =~ m/\A...([ATGC]{25})/ ) {
        
        im Vergleich die Zeile aus meinem alten Programm
        
        Code (perl): (dl )
        
        1 2 3 4
        
        my $DNAString=join("",@DNAReadIn); $DNAString =~s/(\]\n)/,/g; while ($DNAString =~ m{,\w{3}(\w{24})}g)
        
        Hier habe ich die ] in ein , umgewandelt um so die Stelle mit ,\w\w\w zu finden um anschließend die nächsten 24 Zeichen zu extrahieren, da der Enzym-Sequenzbeginn (das Startcodon) nicht immer ATG ist.
        
        +4 replies
        
        Linuxer
        
        2013-05-02 15:40
        
        User since
        2006-01-27
        3891 Artikel
        HausmeisterIn
        
        Wieviel Enzymsequenzen sollen denn aus den Dateien extrahiert werden? Ich hatte es so verstanden, dass alle ausgelesen werden sollen.
        
        Wenn also Datei 1 (vereinfacht) so aufgebaut ist
        
        Code: (dl )
        
        1 2 3 4
        
        > enzym 1 [organismus adam] AAAAAAAAA > enzym 2 [organismus adam] BBBBBBBBB
        
        dann landen eben die extrahierten Sequenzen (AAA + BBB) zuerst in der Ausgabedatei.
        Wenn dann Datei 2 auch nochmal 2 Gensequenzen (seien es CCC + DDD) enthält, dann landen diese danach auch in der Ausgabedatei, die dann wohl so aussehen würde:
        
        Code: (dl )
        
        1 2
        
        > organismus adam AAABBBCCCDDD
        
        Es werden erst alle Sequenzzeilen aus Datei 1 ausgewertet und gesammelt, danach dann alle Sequenzzeilen aus Datei 2. In der Ausgabe landen dann zuerst alle aus Datei 1 und danach alle aus Datei 2, wobei alle Sequenzen einfach aneinander geschrieben werden.
        
        Tiefergehend kann ich mich erst entweder heute spät am Abend oder erst morgen/am Wochenende damit weiter befassen.
        meine Beiträge: I.d.R. alle Angaben ohne Gewähr und auf Linux abgestimmt!
        Die Sprache heisst Perl, nicht PERL. - Bitte Crossposts als solche kenntlich machen!
        
        +3 replies
        
        String_Test
        
        2013-05-02 15:50
        
        User since
        2013-04-23
        19 Artikel
        BenutzerIn
        
        Ja es sollen aus allen Enzym-Sequenzen bestimmte Abschnitte herausgeschnitten werden, das hab ich glaube ich nicht deutlich genug gesagt :( deshalb hier mal ein Originalauszug aus einer Datei:
        
        Quote
        >gb|CP000351.1|:139-891 ParA-like protein [Leptospira borgpetersenii serovar Hardjo-bovis JB197]
        ATGATAGTTGTATCCATAGCAAACCAGAAAGGTGGAGAAGGTAAAACTACAACCTCTCTTAATTTATCGA
        TGGGGCTTGCGAGAAGAGGAAAAAAAACTCTGCTCGTTGATATAGATCCTCAAGCAAATTCAACCGGTAT
        TTTTACAAATCCAGAAGGTATTGAGAAATCAATGCATGGAGTTTTTAACTCAAAAATGACTATCCAAGAA
        ATCATGATTGAAACGAGGTTACCTGATCTTTTTTTGGCCCCTTCTAAAATGAATCTTGCGGAAGTAGAAA
        CACTTTCCGGAAATTCCGTAGATGCGCCTTATATTCTGAGAGACTCTCTTCAAAGTGTGAGTGGGATCGA
        CTTTTGTATCATCGATTGTCCACCTAGCTTATCTATTTTTACGATTAATGCACTCGTCGGATCAAATTAC
        GTAATTATTCCACTTCAGGCTGAAAAATTTTCCGTAGATGGAATTGTAGGACTTCAACAAACAATCACAA
        GCATCAAAAAAAGAATCAATCCTAACCTTGAAATTTTAGGAGCCCTAGTTACTCAACTCAAGCCTCAAAC
        ACTTTTGACGAAAACTATCGTACCCGTTTTAACAAAATACTTTCGAATTTTCGAAACAAGCATCTCTGAT
        GGAGTTGCAGTAGGAGAATCCCATCTTGCTAAAAAGTCGGTATTTGAATACAACAAGACGAGTAAACAAG
        CCCAGGAATATGAAGGGTTTATAGAGGAGTTTTTAAATGAGCTCAAAAAGTAA
        >gb|CP000351.1|:875-1720 ParB-like protein [Leptospira borgpetersenii serovar Hardjo-bovis JB197]
        ATGAGCTCAAAAAGTAAACGACTCGGCTCTCTCGCAGATGTATTCCAAGCCGAAAAGTTGGAGGGGACTA
        TTCGTAAAATTCGGCTCGATAAAATTCTTCCATCCGAAAACCAGCCCAGACAAGATCGAAAAAAAGGAAT
        CGAAGACCTCGCGAGAAGTTTAGACAAAGACGGACTACTCCAACCAATCATTGTCACAAAACAAAATCCG
        GAAGATGAGAACTATAAAATTGTAGCCGGAGAAAGAAGATACCACGCAGCGAAACAATTAGGCTGGGCAG
        AAATAGAATGTAAAATTTTAGACCGGGACGAAAAAGAAACCTTTCGACTTGCAATTATAGAAAATCTTCA
        AAGAGAAAATTTATCCCCTTATGAAGAAGTGGAAGCCATGTCACACTTAAAGAATAGCTTCAAATATACA
        GATCAAGAATTAGGAACTCTCTTTGGAAAAAGTAGAAGTTACATGACGGAGCTTCTTGGAATTTCAAATC
        TAAGCAAAGAAGAACTTAGATCCTGCAAAGAAGCAGGAATTGAAAGTAAAAATTTATTGATCCAAGCAGT
        TGCAGCTTCTCGAAAAGGAACCTTCTCTGAGTTTTTAAATTTATTTCAAACGGGTGCACTTAAAACCGTT
        AAAGATGCAAAATCTTTTAACCGGGAAGAGGAAAACTTGTCCACACCTAAAATTACAAGTGCGACAAACC
        CAAAAGTTTCAAATTTAAATTCAACGGAATATAAGATCACAAAAAAACAAGGTCTAATTCAAATTAGTTC
        TGATAATGAAGAACTGTTAGGTAATATTTTTAAACTAATCAAAAAAGAAATCCGTAAAAAATTCAATTCT
        ATATAA
        
        Hierbei sollen halt nur die 24 Zeichen, die nach dem Startcodon (die ersten drei Zeichen) stehen extrahiert werden (hier in FETT).
        
        Ich überlege gerade welche Methode effektiver arbeitet und einfacher zu schreiben ist:
        
        1) In der combine_Datei wie in deinem Beispiel bereits nur den Namen und die benötigten Sequenzen zu speichern und deren Inhalt dann einfach an die endgültige Datei anzuhängen.
        
        oder
        
        2) Lediglich die beiden Dateien komplett in die combine_Datei zu überführen und dann zusammen mit den anderen Bakterien .ffn Dateien mit subs oder Schleifen auszulesen und zu extrahieren.
        
        +2 replies
        
        Linuxer
        
        2013-05-03 22:19
        
        User since
        2006-01-27
        3891 Artikel
        HausmeisterIn
        
        Ich erahne, wo das Problem liegt.
        Ich bin davon ausgegangen, dass die Enzym-Sequenz jeweils komplett in einer Zeile steht.
        Daher wertet mein Code jede Zeile, die nicht mit ">" beginnt, aus. Aber Du hast ja mehrere Zeilen mit Sequenzen, daher muss da anders herangegangen. Damit landen eben auch Sequenzen in der Ausgabe, die unerwünscht sind.
        
        Es soll also nur die jeweils erste Zeile einer Sequenz ausgewertet werden.
        Hier ein modifizierter Code, der das machen sollte.
        
        Code (perl): (dl )
        
        1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102
        
        #! /usr/bin/perl use strict; use warnings; # https://www.perl-community.de/bat/poard/thread/18288 use File::Find; # for searching for files/directories use File::Spec::Functions qw( catfile ); # for creating portable file-paths use Cwd; # for determing current work directory my @directories = ( # where do you want to search? '/dev/shm/data', # herein are the .ffn files; ADJUST THIS PATH ); my $outfile_name = 'combined.ffn'; my %match; # storage for matching file paths # this routine extracts and combines the data sub combine_to { my $newfile = shift; # output filename my $directory = shift; # files' directory my $filesRef = shift; # reference to array of filenames # create full path of output file my $outfile = catfile( $directory, $newfile ); my $organism = ''; # name of organism my @sequences; # list of extracted gene sequences # open output file for writing open my $outfh, '>', $outfile or die "open(w, $outfile) failed: $!\n"; # dereference $filesRef and iterate through the input filenames for my $infile ( @{ $filesRef } ) { # create full path of each input file $infile = catfile( $directory, $infile ); # open input file for reading open my $infh, '<', $infile or die "open(ro,$infile) failed: $!\n"; # read input file linewise while ( my $line = <$infh> ) { # skip empty lines next if $line =~ m{^\s*$}; # identify line protein info and name of organism if ( $line =~ m/^>.+\[([^]]+)\]/ ) { # store name of organism only if not known yet $organism = $1 if $organism eq ''; # read next line to extract beginning of sequence $line = <$infh>; # extract sequence information if ( $line =~ m/\A...([ATGC]{25})/ ) { push @sequences, $1; } } } close $infh; } # print collected data to output file print $outfh "> $organism\n", @sequences; close $outfh or die "close($outfile) failed: $!\n"; } sub find_ffn_files { return if ! -d $File::Find::name; # skip if not a directory my $dir = $File::Find::name; # short name of directory opendir my $dh, $dir or die "Cannot open '$dir': $!\n"; # read '.ffn' files from directory and create full file path my @files = grep { m/\.ffn$/ && $_ ne $outfile_name } readdir $dh; closedir $dh; # create hash of array for matches; # we must have found 1 or exactly 2 files $match{$dir} = \@files if @files && 2 >= @files; } # search for files and fill @matches find( \&find_ffn_files, @directories ); # check %match for my $dir ( keys %match ) { # combine found files into 'combined.ffn' in corresponding directory combine_to( $outfile_name, $dir => $match{$dir} ); }
        
        Last edited: 2013-05-03 22:38:42 +0200 (CEST)
        meine Beiträge: I.d.R. alle Angaben ohne Gewähr und auf Linux abgestimmt!
        Die Sprache heisst Perl, nicht PERL. - Bitte Crossposts als solche kenntlich machen!
        
        renee
        
        2013-05-04 01:27
        
        User since
        2003-08-04
        14371 Artikel
        ModeratorIn
        
        Genau dafür habe ich ja mal Bio::FASTASequence geschrieben...
        
        ffn-Datei
        
        Code: (dl )
        
        1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26
        
        >gb|CP000351.1|:139-891 ParA-like protein [Leptospira borgpetersenii serovar Hardjo-bovis JB197] ATGATAGTTGTATCCATAGCAAACCAGAAAGGTGGAGAAGGTAAAACTACAACCTCTCTTAATTTATCGA TGGGGCTTGCGAGAAGAGGAAAAAAAACTCTGCTCGTTGATATAGATCCTCAAGCAAATTCAACCGGTAT TTTTACAAATCCAGAAGGTATTGAGAAATCAATGCATGGAGTTTTTAACTCAAAAATGACTATCCAAGAA ATCATGATTGAAACGAGGTTACCTGATCTTTTTTTGGCCCCTTCTAAAATGAATCTTGCGGAAGTAGAAA CACTTTCCGGAAATTCCGTAGATGCGCCTTATATTCTGAGAGACTCTCTTCAAAGTGTGAGTGGGATCGA CTTTTGTATCATCGATTGTCCACCTAGCTTATCTATTTTTACGATTAATGCACTCGTCGGATCAAATTAC GTAATTATTCCACTTCAGGCTGAAAAATTTTCCGTAGATGGAATTGTAGGACTTCAACAAACAATCACAA GCATCAAAAAAAGAATCAATCCTAACCTTGAAATTTTAGGAGCCCTAGTTACTCAACTCAAGCCTCAAAC ACTTTTGACGAAAACTATCGTACCCGTTTTAACAAAATACTTTCGAATTTTCGAAACAAGCATCTCTGAT GGAGTTGCAGTAGGAGAATCCCATCTTGCTAAAAAGTCGGTATTTGAATACAACAAGACGAGTAAACAAG CCCAGGAATATGAAGGGTTTATAGAGGAGTTTTTAAATGAGCTCAAAAAGTAA >gb|CP000351.1|:875-1720 ParB-like protein [Leptospira borgpetersenii serovar Hardjo-bovis JB197] ATGAGCTCAAAAAGTAAACGACTCGGCTCTCTCGCAGATGTATTCCAAGCCGAAAAGTTGGAGGGGACTA TTCGTAAAATTCGGCTCGATAAAATTCTTCCATCCGAAAACCAGCCCAGACAAGATCGAAAAAAAGGAAT CGAAGACCTCGCGAGAAGTTTAGACAAAGACGGACTACTCCAACCAATCATTGTCACAAAACAAAATCCG GAAGATGAGAACTATAAAATTGTAGCCGGAGAAAGAAGATACCACGCAGCGAAACAATTAGGCTGGGCAG AAATAGAATGTAAAATTTTAGACCGGGACGAAAAAGAAACCTTTCGACTTGCAATTATAGAAAATCTTCA AAGAGAAAATTTATCCCCTTATGAAGAAGTGGAAGCCATGTCACACTTAAAGAATAGCTTCAAATATACA GATCAAGAATTAGGAACTCTCTTTGGAAAAAGTAGAAGTTACATGACGGAGCTTCTTGGAATTTCAAATC TAAGCAAAGAAGAACTTAGATCCTGCAAAGAAGCAGGAATTGAAAGTAAAAATTTATTGATCCAAGCAGT TGCAGCTTCTCGAAAAGGAACCTTCTCTGAGTTTTTAAATTTATTTCAAACGGGTGCACTTAAAACCGTT AAAGATGCAAAATCTTTTAACCGGGAAGAGGAAAACTTGTCCACACCTAAAATTACAAGTGCGACAAACC CAAAAGTTTCAAATTTAAATTCAACGGAATATAAGATCACAAAAAAACAAGGTCTAATTCAAATTAGTTC TGATAATGAAGAACTGTTAGGTAATATTTTTAAACTAATCAAAAAAGAAATCCGTAAAAAATTCAATTCT ATATAA
        
        .pl
        
        Code: (dl )
        
        1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27
        
        use strict; use warnings; use Bio::FASTASequence::File; use File::Find::Rule; my @ffns = File::Find::Rule->file->name( '*.ffn' )->in( '.' ); my %result; my $output = 'org.fasta'; my $bff = Bio::FASTASequence::File->new; for my $ffn ( @ffns ) { my $parsed = $bff->file( $ffn ); for my $orga ( keys %{$parsed} ) { my $subsequence = substr $parsed->{$orga}->getSequence(), 3, 24; my ($name) = $parsed->{$orga}->getDescription() =~ m{ \[ (.*?) \] }x; push @{ $result{$name} }, $subsequence; } } open my $fh, '>', $output; for my $key ( sort keys %result ) { print $fh "> $key\n", join( '', @{ $result{$key} } ),"\n"; } close $fh;
        
        Ausgabe:
        
        Code: (dl )
        
        1 2
        
        > Leptospira borgpetersenii serovar Hardjo-bovis JB197 ATAGTTGTATCCATAGCAAACCAGAGCTCAAAAAGTAAACGACTCGGC
        
        OTRS-Erweiterungen (http://feature-addons.de/)
        Frankfurt Perlmongers (http://frankfurt.pm/)
        --
        
        Unterlagen OTRS-Workshop 2012: http://otrs.perl-services.de/workshop.html
        Perl-Entwicklung: http://perl-services.de/
  - +3 replies
  - Gast Sascha
    
    2013-05-02 15:59
    
    http://perl101.org/style.html
    
    Direkt erster Punkt -> camelCase is bad
    
    ;-)
    Last edited: 2013-05-02 16:10:39 +0200 (CEST)
    - String_Test
      
      2013-05-02 16:16
      
      User since
      2013-04-23
      19 Artikel
      BenutzerIn
      
      Bin selbst kein echter Programmierer und ein AE hat mir mal gesagt ich solle CamelCase benutzen, ich folgte seinem Rat, da ich dachte er hat das Programmieren wohl anständig gelernt, aber da habe ich mich wohl geirrt ;) werde deinen Rat von nun an beherzigen.
      
      Hast du noch weitere Ratschläge mein Programm/Problem betreffend? ;)
    - payx
      
      2013-05-02 16:51
      
      User since
      2006-05-04
      564 Artikel
      BenutzerIn
      
      Geschmackssache. Ich kann an Kamelen nicht übles finden (vgl. mein Avatar).
      
      In meinem ganz persönlichen Stil, der sich in dem von Dir kritisierten Snippet widerspiegelt, gebrauche ich CamelCase-Schreibweisen für bestimmte Zwecke. Im Beispiel zur Kennzeichnung von Variablen, die bestimmte Inhalte haben. Ein Filehandle hat bei mir beispielsweise immer FH am Ende des Namens, ein Dirhandle DH usw.

View all threads created 2013-04-23 11:08.