Wie findet das Perlscript meinen Ordner!? (Allgemeines zu Perl)

[thread]15488[/thread]

Wie findet das Perlscript meinen Ordner!?

Leser: 30

Articles: hide open all | hide show old branches

+16 replies
lin

2010-09-27 20:31
User since
2010-09-26
35 Artikel
BenutzerIn
hi Commmunity,

- das war ein Superstart. Hab mit Linux un mit Perl viele neue Erfahrungen gemacht. Habe über CPAN und über den OpenSusePaketmanager Perl-Module geladen. Jetzt gehts weiter.

Das erste Script ist fertig - unter tatkräftiger Hilfe von Perlern. Jetzt will ich das testen. Will HTML-files Parsen - meine Frage ist - wo ist denn der Speicherort genau - ich mein wo muss ich denn den Ordner mit den zu parsenden Files ablegen?

vielleicht eine doofe Frage - Aber mir kommt sie unmittelbar.

BTW : habe OpenSuse 11.3 am Laufen - und einen Ordner mit vielen zu Parsenden HTML-Files. Brauch jetz wohl noch einen durchschlagenden Tipp -ehe es losgeht!?

Freu mich darauf - wenn mir jemand hilft die letzten Schwierigkeiten aus dem Weg zu räumen.....

lin

Also - das ist ein Ausriss aus dem Code - der das Parsen übernimmt; FRAGE - soll ich denn den Ordner mit den HTML-files drinne etwa Shool-html nennen... Ihr sehr ich steh etwas auf dem Schlauch...

PS - wenn ich meine Frage anders stellen soll - oder präzisieren - dann sagt mir das bitte!! Ist eine Anfängerfrage...!!
PPS - wenn ihr Mehr Code braucht - oder mehr Details zum Parserjob - einfach melden: ich kann noch mehr erklären...
Code: (dl )

1 2 3 4

my $file = 'school.html'; my $p = HTML::TokeParser->new($file) or die "Can't open: $!"; my %school;
- +3 replies
- hlubenow
  
  2010-09-27 21:16
  User since
  2009-02-22
  882 Artikel
  BenutzerIn
  2010-09-27T18:31:29 lin
  Will HTML-files Parsen - meine Frage ist - wo ist denn der Speicherort genau - ich mein wo muss ich denn den Ordner mit den zu parsenden Files ablegen?
  
  Falschherum gedacht: Du solltest in Dein Skript schreiben, wo die html-Dateien liegen. 'school.html' bezieht sich so auf das Arbeitsverzeichnis:
  
  Code: (dl )
  
  1 2
  
  use Cwd; print getcwd() . "\n";
  
  Auch
  
  Code: (dl )
  
  1 2
  
  use FindBin qw($Bin); print $Bin . "\n";
  
  Das findet den Ort Deines Perl-Skripts.
  - +2 replies
  - lin
    
    2010-09-27 21:43
    User since
    2010-09-26
    35 Artikel
    BenutzerIn
    
    Hi hlubenow, guten Abend!
    
    vielen Dank für deine schnelle Antwort. Das ging sehr schenll! Du zeigst mir wichtige. Genau darum geht es mir! Freu mich sehr über deinen Tipp. Also ich muss nochmals drüber nachdenken.
    
    Muss ich denn deinen Code - oder äquivalenzen davon in meinen code einbauen....
    
    das
    
    Code: (dl )
    
    1 2
    
    use Cwd; print getcwd() . "\n";
    
    oder das...:
    
    Code: (dl )
    
    1 2
    
    use FindBin qw($Bin); print $Bin . "\n";
    
    Renee hat in einem Thread gestern folgendes gesagt: in dem folgenden Thread etwas gesagt: Ich soll das so bauen - so wie folgt:
    
    Code: (dl )
    
    1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16
    
    # strict und warnings sollten bei jedem Programm Pflicht sein use strict; use warnings; # Bibliothek zum einfachen Finden von Dateien # muss ggf. noch installiert werden use File::Find::Rule; # Bibliothek zum Parsen von HTML-Dateien use HTML::TreeBuilder::LibXML; # Verzeichnis in dem die HTML-Dateien gespeichert sind my $html_dir = '/path/to/dir/with/html.files'; # hole alle .html-Dateien aus dem Verzeichnis my @html_files = File::Find::Rule->file->name( '*.html' )->in( $html_dir );
    
    hlubenow, ich glaube dass ich hier noch Bausteine in meinen Code einbauen müsste. Was meinst du denn. Es ist ja so. ich will einen Ordner in dem viele - in ihrer Struktur - sehr sehr gleiche HTML-Files drinne sind, parsen lassen. Diesen Ordner muss ich doch in seinem Pfad im Perl-Script erwähnen und "unterbringen" - Also den Pfad dazu angeben.
    
    Das unten ist mein Code.... : In diesen Code muss doch noch rein wo der Ordner liegt... Das denke ich auf jeden Fall!! Sonst gehts doch nicht mit dem Parsen... Wie soll denn das Script die files finden!?
    
    Code: (dl )
    
    1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67
    
    #!/usr/bin/perl use strict; use warnings; use HTML::TokeParser; my $file = 'school.html'; my $p = HTML::TokeParser->new($file) or die "Can't open: $!"; my %school; while (my $tag = $p->get_tag('div', '/html')) { # first move to the right div that contains the information last if $tag->[0] eq '/html'; next unless exists $tag->[1]{'id'} and $tag->[1]{'id'} eq 'inhalt_large'; $p->get_tag('h1'); $school{'location'} = $p->get_text('/h1'); while (my $tag = $p->get_tag('div')) { last if exists $tag->[1]{'id'} and $tag->[1]{'id'} eq 'fusszeile'; # get the school name from the heading next unless exists $tag->[1]{'class'} and $tag->[1]{'class'} eq 'fm_linkeSpalte'; $p->get_tag('h2'); $school{'name'} = $p->get_text('/h2'); # verify format for school type $tag = $p->get_tag('span'); unless (exists $tag->[1]{'class'} and $tag->[1]{'class'} eq 'schulart_text') { warn "unexpected format: parsing stopped"; last; } $school{'type'} = $p->get_text('/span'); # verify format for address $tag = $p->get_tag('p'); unless (exists $tag->[1]{'class'} and $tag->[1]{'class'} eq 'einzel_text') { warn "unexpected format: parsing stopped"; last; } $school{'address'} = clean_address($p->get_text('/p')); # find the description $tag = $p->get_tag('p'); $school{'description'} = $p->get_text('/p'); } } print qq/$school{'name'}\n/; print qq/$school{'location'}\n/; print qq/$school{'type'}\n/; foreach (@{$school{'address'}}) { print "$_\n"; } print qq/\nDescription: $school{'description'}\n/; sub clean_address { my $text = shift; my @lines = split "\n", $text; foreach (@lines) { s/^\s+//; s/\s+$//; } return \@lines; }
    
    Also - mit der angabe des Ortes wo man die Files findet finde ich das
    dieser untenstehende Codeschnippel auch etwas trnasparten macht:
    Also - ich mein jetzt mal analog vielleicht zu dem Schnippel hier:
    
    Quote
    
    my $html_dir="C:\htmlperl";
    my $output="C:\htmlperl\output.txt";
    my $file = $ARGV[0];
    
    Das ist ein Schnippel aus einem Thread bei dem ich mal etwas abgeschaut habe. Das war - zumindest was die Anlage des Scripts und den prinzipiellen Aufbau anbetrifft etwas hilfreich. Siehe hier:
    
    siehe diesen Link hier - auf devshed
    
    Ich selber arbeit ja auf Linux (OpenSuse 11.3)
    
    bin wie gesagt noch am überlegen. Aber ich sollte mal etwas ausprobieren.
    
    Freu mich wieder von dir / euch zu hoeren
    
    lin
    
    Habe gegoogelt und folgendes gefunden: Hier ist eine interessante Idee:
    
    hier in Stackoverflow: die sprechen über das gleiche Thema: Und die verwenden dieselben Codeschnippel wie du hlubenow, Ich hab das verglichen.
    
    I have Perl script and need to determine the full path and filename of the script during execution. I discovered that depending on how you call the script $0 varies and sometimes contains the fullpath+filename and sometimes just filename. Because the working directory can vary as well I can't think of a way to reliably get the fullpath+filename of the script.
    Anyone got a solution?
    
    $0 is typically the name of your program, so how about this?
    
    Hlubenow: die verwenden dieselben Codeschnippel wie du hlubenow, das verglichen.
    
    Code: (dl )
    
    1 2
    
    use Cwd 'abs_path'; print abs_path($0);
    
    Seems to me that this should work as abs_path knows if you are using a relative or absolute path.
    
    Code: (dl )
    
    Use File::Spec; File::Spec->rel2abs( __FILE__ );
    
    see here - follow the link: http://perldoc.perl.org/File/Spec/Unix.html
    
    Ich sollte den Pfad rausfinden mit dem o.g. Codeschnippel
    Last edited: 2010-09-27 23:45:12 +0200 (CEST)
    - topeg
      
      2010-09-27 23:55
      
      User since
      2006-07-10
      2611 Artikel
      BenutzerIn
      
      In '$0' steht der Name und Pfad mit der das Script gestartet wurde. Das müssen nicht die richtigen sein. Man kann unter Linux und anderen Systemen die sich an den POSIX-Standard halten, "Links" anlegen, das sind Synonyme für eine Datei oder Ordner. Die können sich ganz wo anders befinden, als das script das $0 abfragt. Weiterhin enthält $0 -e wenn man ein Script der Art startet: perl -e 'do("/pfad/zu/script.pl")'
      Es ist also nicht immer ganz einfach den wahren Pfad zum Script heraus zu finden. Die probleme halten sich aber in grenzen, wenn man die Scripte selber schreibt. :-)
- +12 replies
- topeg
  
  2010-09-27 23:46
  User since
  2006-07-10
  2611 Artikel
  BenutzerIn
  Starten von Scripten und ihre Pfade:
  
  Unter Linux und anderen Unixoiden Systemen ist der Pfadtrenner '/' alle absoluten Pfade fangen mit '/' an. Das ist der "Root" die Wurzel des Dateisystems, alle Dateien und Ordner im system sind von hier aus zu erreichen. Andere Dateisysteme (Fesplatten CDs etc) bekommen einen Ordner in diesem Dateisystem. Wenn du also Pfade ohne ein '/' am Anfang hast sind es "Relative" Pfade (ansonsten "Absolute" Pfade) und beziehen sich entweder auf aktuelle Arbeitsverzeichnis oder das Verzeichnis in dem sich das Programm befinden, das die Pfade interpretiert (dein Script zum Beispiel).
  "." ist ein Synonym für das aktuelle Verzeichnis '..' bezeichnet das darunterliegende.
  
  Wie kannst du das nutzen.
  
  Nehmen wir an wir hätten eine Script dieser Art:
  
  Code (perl): (dl )
  
  1 2 3 4 5 6 7 8 9
  
  #!/usr/bin/perl use strict; use warnings; use Cwd; use FindBin qw($Bin); print "Aktuelles Arbeitsverzeichnis: ".getcwd()."\n"; print "Vollständiger Scriptpfad: $Bin \n";
  
  Nun speicherst du es auf deinem Desktop. Als Bezug nehme ich jetzt mal /home/lin/Desktop/script_tests.pl
  
  nun startest du ein Shell-Terminal. Das wird bei mir "Terminal" genannt. und befindet sich im Menu unter "Sonstiges". Aber ich benutze Debian und weiß nicht wo OpenSuse das Programm eingeordnet hat.
  
  Es sollte sich ein Fenster öffnen in dem in dem du eine Textzeile der Art siehst: lin@Linux:~/$
  
  nun ein paar Tests:
  
  schreibe: perl ~/Desktop/script_tests.pl nach einem return solltest du ein Ausgabe der Art bekommen:
  
  Code: (dl )
  
  1 2
  
  Aktuelles Arbeitsverzeichnis: /home/lin/ Vollständiger Scriptpfad: /home/lin/Desktop
  
  wechsle in das Verzeichnis Desktop: cd ~/Desktop uns schreibe: perl ~/Desktop/script_tests.pl die Ausgabe ist nun:
  
  Code: (dl )
  
  1 2
  
  Aktuelles Arbeitsverzeichnis: /home/lin/Desktop Vollständiger Scriptpfad: /home/lin/Desktop
  
  Es wäre doch schön das "perl" vor dem Scriptnamen weglassen zu können. Das geht. Im Script steht ja in der ersten Zeile #!/usr/bin/perl . Das ist das so genannte "Shebang" ( http://de.wikipedia.org/wiki/Shebang ). Das definiert mit welchem Programm der nachfolgende Code ausgeführt werden soll. (hier '/usr/bin/perl') Das Alleine reicht aber noch nicht aus. Du musst dem Betriebssystem noch mitteilen, dass es sich um eine ausführbare (executable) Datei handelt. Das Kannst du entweder grafisch machen, indem du die Ausführbarkeit in den dateiEigenschaften änderst oder auf dem Terminal mittels: chmod u+x ./script_tests.pl (wenn du im selben Ordner bist.) Hast du das gemacht solltest du die datei einfach per doppelklick (wahrscheinlich wirst du gefragt ob du das programm im Terminal ausführen möchtest oder direkt. Das macht bei dem kleinen Script keinen unterschied, da sich das terminal sofort wieder schließt nachdem das Script beendet wurde.) oder im Terminal mit ./script_tests.pl starten können.
  
  Schreiben wir ein komplexeres Script read_print.pl, das eine Datei öffnet, ließt und ausgibt:
  
  Code (perl): (dl )
  
  1 2 3 4 5 6 7 8 9 10 11
  
  #!/usr/bin/perl use strict; use warnings; my $filename='./test.txt'; open(my $fh, '<', $filename) || die("ERROR open $filename ($!)\n"); while(my $line=<$fh>) { print $line; } close($fh);
  
  test.txt soll enthalten:
  
  Code: (dl )
  
  1 2
  
  Das ist nur ein Test. Diese Datei hat zwei Zeilen!
  
  die Ordnerstruktur soll sein:
  
  Code: (dl )
  
  1 2
  
  /home/lin/perl_tests/read_print.pl /home/lin/perl_tests/test.txt
  
  wenn du in den Ordner /home/lin/perl_tests/ wechselst (cd /home/lin/perl_tests) und das Script startest wird die Datei ohne Probleme ausgeben:
  
  Code (perl): (dl )
  
  1 2 3
  
  lin@linux:~/perl_tests$ ./read_print.pl Das ist nur ein Test. Diese Datei hat zwei Zeilen!
  
  Startest du das Script aber von anders aus. z.B. von /home/lin mittels /home/lin/perl_tests/read_print.pl wirst du eine Ausgabe der Art bekommen:
  
  Code: (dl )
  
  1 2
  
  lin@linux:~$ /home/lin/perl_tests/read_print.pl ERROR open ./test.txt (Datei oder Verzeichnis nicht gefunden)
  
  Das liegt daran das die Datei in /home/lin/test.txt gesucht wurde. Sie liegt aber im selben Verzeichnis wie das Script. Hier kannst du das Modul FindBin benutzen:
  
  Code (perl): (dl )
  
  1 2 3 4 5 6 7 8 9 10 11 12 13 14
  
  #!/usr/bin/perl use strict; use warnings; use FindBin qw($Bin); my $filename='./test.txt'; my $real_filename="$Bin/$filename"; open(my $fh, '<', $real_filename) || die("ERROR open $real_filename ($!)\n"); while(my $line=<$fh>) { print $line; } close($fh);
  
  Nun funktioniert die das öffnen der Datei immer egal von wo aus du das Script startest. Im Script wird der relative Pfad um den absoluten vom Script ergänzt. Will man das Platformübergreifend korrekt mach so muss man das Modul File::Spec benutzen. Das kann die verschiedenen Pfadtrenner handhaben.
  
  Ich hoffe das hilft dir ein wenig weiter
  - +11 replies
  - lin
    
    2010-09-28 01:26
    
    User since
    2010-09-26
    35 Artikel
    BenutzerIn
    
    Hallo Topeg
    
    vielen dank für deine Ausführungen. Das hilft mir sehr weiter. ich werd das alles morgen nachvollziehen.
    
    Werde wieder berichten.
    
    Viele Grüße
    Lin
    - +10 replies
    - hlubenow
      
      2010-09-29 02:11
      
      User since
      2009-02-22
      882 Artikel
      BenutzerIn
      
      Wenn Du Deinen Skriptanfang so gestaltest:
      
      Code: (dl )
      
      1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
      
      #!/usr/bin/perl use strict; use warnings; use HTML::TokeParser; if ($#ARGV < 0) { print "Usage: 'schoolhtmlparser.pl file'\n"; exit(1); } my $file = $ARGV[0]; my $p = HTML::TokeParser->new($file) or die "Can't open: $!"; ....
      
      kannst Du dem Skript den Namen der zu verarbeitenden Datei als Argument mitgeben.
      
      Gruß
      - +9 replies
      - Gast wer
        
        2010-09-29 11:30
        
        if ($#ARGV < 0) { ist mir zu umständlich. Ich würde so prüfen:unless(@ARGV) {
        Außerdem würde ich anstatt den Scriptnamen selber rein zu schreiben $0 verwenen, dann kann man auch das Script umbenennen oder über einen Link aufrufen und bekommt immer die richtige Fehlermeldung.
        Man kann auch die verwenden um das Programm abzubrechen. Das hat den Vorteil, dass man den Code eventuell auch über eval starten kann und dann nur der das eval abgebrochen wird.
        Wenn es um Dateinamen geht kann man das auch etwas anders schreiben:
        
        Code (perl): (dl )
        
        1 2 3 4 5 6 7 8 9 10 11
        
        #!/usr/bin/perl use strict; use warnings; use HTML::TokeParser; my $file = shift(@ARGV) or die "Usage: '$0 <filename>'\n"; my $p = HTML::TokeParser->new($file) or die "Can't open: '$ile' ($!)\n"; ...
        
        Das funktioniert weil ein Dateiname selten die zahl '0' ist, allso ein String, der nicht als "unwahr" interprtiert wird. Wenn nichts in @ARGV ist $file=undef und damit "unwahr" der Teil hinter dem or wird ausgeführt.
        Bei komplexeren Sachen würde ich Getopt::Long nutzen
        Last edited: 2010-09-29 11:39:31 +0200 (CEST)
        
        +8 replies
        
        lin
        
        2010-09-29 12:45
        
        User since
        2010-09-26
        35 Artikel
        BenutzerIn
        
        Hallo Hlubenow & Hallo Gast
        
        vielen Dank für die schnellen Tipps und tollen Ideen. Das ist echt spitze
        Weil ich echter ANFÄNGER unter Linux (OpenSuse 11.3) und Perl bin, bin ich auf Tipps angewiesen.
        
        Eure Tipps sind Super. Das mit dem Dateinnamen der zu parsenden DATEI so zu übergeben find ich auch sehr interessant: "Usage: '$0 <filename>'\n";
        
        Frage - ich muss dann noch die DATEI die geschrieben werden soll nennen - und der einen Pfad zuordnen. Wie mache ich das denn!? Und wie mit dem zu erzeugenden File. Ich denk ich brauchs einfach - am Anfang.
        
        Der Einfachheit halber FEST VERDRAHTET - am Anfang würd ich das ganze fest verdrahten...:
        
        Also ich muss ja nicht nur "feste" Pfade verwenden? Ich könnte es ja auch so machen dass ich das Script selbst nach /usr/bin lege und nicht die Input-, sowie Outputfiles.
        Aber grundsätzlich würde das ja gehen. Ich meine als Anfänger - dass ich das übersichtlich halte. Auf die Portabilität brauch ich hier nicht so viel zu achten. Es - das Script muss erstmal bei mir seinen Dienst tun.
        Dann kann ich ja weitersehen. Wenn es erstmal gelaufen ist - dann kann ich das immer noch portieren.
        
        Wenn es "portable" sein soll, kann ich grundsätzlich einfache Options fuer das Script verwenden, die man beim Start angibt, z.B. "script.pl --inputfiles /pfad/zu/den/inputfiles --output /pfad/zum/outputdir".
        
        Also - ich bin dafür dass ich die Anfangssachen so übechaubar halte und das alles am Anfang lieber erstmal fest verdrahte!
        
        d.h. also mit festen Pfaden arbeite - und dann ggf. alles in einen Ordner lege... Alle Files.
        
        - a. das ausführende Programm
        - b. die Datei mit den HTML-Files drinne
        - c. die zu erzeugende Datei - in der die Resultate geschrieben werden.
        
        So halte ich das am Anfang überschaubar. was meint ihr!?
        
        Freu mich wenn ihr da noch einen Tipp habt.
        
        viele
        
        Grüße
        lin
        Last edited: 2010-09-29 14:16:49 +0200 (CEST)
        
        +7 replies
        
        topeg
        
        2010-09-29 15:48
        
        User since
        2006-07-10
        2611 Artikel
        BenutzerIn
        
        2010-09-29T10:45:15 lin
        Das mit dem Dateinnamen der zu parsenden DATEI so zu übergeben find ich auch sehr interessant: "Usage: '$0 <filename>'\n";
        
        Nicht dass ein Missverständniss aufkommt. Diese Zeile:
        
        Code (perl): (dl )
        
        my $file = shift(@ARGV) or die "Usage: '$0 <filename>'\n"
        
        macht folgendes:
        Definiere eine Variable "$file", hole aus "@ARGV" das erste Argument. Wenn das Ergebnis dieser Aktion "Falsch" (in diesem Fall 'undef' oder '0') sein sollte so führe die "Usage: '$0 <filename>'\n" aus. "die" Lässt das Programm mit einer Fehlermelung ("Usage: '$0 <filename>'\n") sterben. Der "Zauber" ist hier das "or". Das logische 'oder' verhält sich in perl so, dass der zweite Teil nur ausgeführt wird wenn der erste teil ein 'falsch' zurück gibt ist der Teil aber 'wahr', so ist bei einem logischen 'oder' egal ob der zweite Teil 'wahr' oder 'falsch' ist, die Gesammtaussage ist immer wahr.
        Ich hoffe das war jetzt nicht zu verwirrend.
        
        2010-09-29T10:45:15 lin
        Frage - ich muss dann noch die DATEI die geschrieben werden soll nennen - und der einen Pfad zuordnen. Wie mache ich das denn!? Und wie mit dem zu erzeugenden File. Ich denk ich brauchs einfach - am Anfang.
        
        Keine Eindeutige Formulierung. Ich kann jetzt nicht genau sagen was du wissen willst.
        Willst du wissen wie man eine Datei schreibend öffnet, oder wie man ein Datei allgemein öffnet, oder wie man eine Datei zum Dateinamen findet, oder wie man aus einer Pfadangabe eine absolute Pfadangabe macht, oder wie man eine Pfadangabe als solchen erkennt? Bitte spezefiziere dein Problem am besten mit einem Codebeispiel.
        
        2010-09-29T10:45:15 lin
        Ich könnte es ja auch so machen dass ich das Script selbst nach /usr/bin lege und nicht die Input-, sowie Outputfiles.
        
        Du kannst die Dateien und programm hinlegen wo es dir beliebt, solange du die Pfade zu den Dateien kennst. (als Anmerkung: mit "Pfadname", oder "Pfad" wird der Dateiname zusammen mit er Ordnerstruktur gemeint. Also Dateiname: "test.txt", Pfadname: "/home/lin/perl_scripte/script1/test.txt")
        
        2010-09-29T10:45:15 lin
        Aber grundsätzlich würde das ja gehen. Ich meine als Anfänger - dass ich das übersichtlich halte. Auf die Portabilität brauch ich hier nicht so viel zu achten. Es - das Script muss erstmal bei mir seinen Dienst tun.
        Dann kann ich ja weitersehen. Wenn es erstmal gelaufen ist - dann kann ich das immer noch portieren.
        
        Für einen anfänger ist es von Vorteil ein Verzeichnis in seinem home-Verzeichnis anzulegen (z.B.: "/home/lin/scripte") und darin für jedes Script einen eigenen Ordner (z.B.: "/home/lin/scripte/test_http_parse"). darin kannst du alles legen was das Script braucht. und auch die Scriptversionen und andere Tests darin unterbringen. Ich zumindest halte es so dass ich wenn ein script einigermaßen Funktioniert, ein 'backup' davon mach indem ich mit einem etwas anders benannten Scriptnamen weiter mache. ('test.0.pl' => 'test.1.pl' => 'test.2.pl'). Alle Scripte '.pl' scripte in einem Ordner mache ich mit chmod u+x *.pl ausführbar. (man kann dann './test.0.pl' schreiben anstatt 'perl ./test.0.pl')
        
        2010-09-29T10:45:15 lin
        Wenn es "portable" sein soll, kann ich grundsätzlich einfache Options fuer das Script verwenden, die man beim Start angibt, z.B. "script.pl --inputfiles /pfad/zu/den/inputfiles --output /pfad/zum/outputdir".
        
        Siehe dazu auch Getopt::Long Das übernimmt für dich das parsen der komandozeilenoptionen (Die stehen in "@ARGV")
        
        +6 replies
        
        lin
        
        2010-09-29 16:42
        
        User since
        2010-09-26
        35 Artikel
        BenutzerIn
        
        Hallo Topeg, guten Abend!
        
        vielen Dank für deine schnelle Antwort. Das ist echt klasse, dass du so dranbleibst. Du hilfst mir hier sehr. Auch die Anderen. Das Board hier ist klasse. Man kann es nur weiterempfehlen. Anfänger kriegen hier viel viel mit.
        
        2010-09-29T13:48:53 topeg
        Nicht dass ein Missverständniss aufkommt. Diese Zeile:
        
        Code (perl): (dl )
        
        my $file = shift(@ARGV) or die "Usage: '$0 <filename>'\n"
        
        macht folgendes:
        Definiere eine Variable "$file", hole aus "@ARGV" das erste Argument. Wenn das Ergebnis dieser Aktion "Falsch" (in diesem Fall 'undef' oder '0') sein sollte so führe die "Usage: '$0 <filename>'\n" aus. "die" Lässt das Programm mit einer Fehlermelung ("Usage: '$0 <filename>'\n") sterben. Der "Zauber" ist hier das "or". Das logische 'oder' verhält sich in perl so, dass der zweite Teil nur ausgeführt wird wenn der erste teil ein 'falsch' zurück gibt ist der Teil aber 'wahr', so ist bei einem logischen 'oder' egal ob der zweite Teil 'wahr' oder 'falsch' ist, die Gesammtaussage ist immer wahr. Ich hoffe das war jetzt nicht zu verwirrend.
        
        Nein - das ist aufs Ganze gesehen schon einleuchtend. Kenn die digitale Logig noch etwas von Früher. Hatte mal damit was zu tun..
        
        Quote
        Keine Eindeutige Formulierung. Ich kann jetzt nicht genau sagen was du wissen willst.
        Willst du wissen wie man eine Datei schreibend öffnet, oder wie man ein Datei allgemein öffnet, oder wie man eine Datei zum Dateinamen findet, oder wie man aus einer Pfadangabe eine absolute Pfadangabe macht, oder wie man eine Pfadangabe als solchen erkennt? Bitte spezefiziere dein Problem am besten mit einem Codebeispiel.
        
        Ich denke ich will das Script (siehe unten) einfach mal auf dem Rechner mit OpenSuse 11.3 zum Laufen bringen, Dazu muss ich noch ein paar Pfad (u. Dateinamen) angeben, Also z.B. auch wo sich meine school.html (siehe den code) befindet und das Gleiche gilt für die Datei, die ich erzeugen möchte.
        
        Code: (dl )
        
        1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67
        
        #!/usr/bin/perl use strict; use warnings; use HTML::TokeParser; my $file = 'school.html'; my $p = HTML::TokeParser->new($file) or die "Can't open: $!"; my %school; while (my $tag = $p->get_tag('div', '/html')) { # first move to the right div that contains the information last if $tag->[0] eq '/html'; next unless exists $tag->[1]{'id'} and $tag->[1]{'id'} eq 'inhalt_large'; $p->get_tag('h1'); $school{'location'} = $p->get_text('/h1'); while (my $tag = $p->get_tag('div')) { last if exists $tag->[1]{'id'} and $tag->[1]{'id'} eq 'fusszeile'; # get the school name from the heading next unless exists $tag->[1]{'class'} and $tag->[1]{'class'} eq 'fm_linkeSpalte'; $p->get_tag('h2'); $school{'name'} = $p->get_text('/h2'); # verify format for school type $tag = $p->get_tag('span'); unless (exists $tag->[1]{'class'} and $tag->[1]{'class'} eq 'schulart_text') { warn "unexpected format: parsing stopped"; last; } $school{'type'} = $p->get_text('/span'); # verify format for address $tag = $p->get_tag('p'); unless (exists $tag->[1]{'class'} and $tag->[1]{'class'} eq 'einzel_text') { warn "unexpected format: parsing stopped"; last; } $school{'address'} = clean_address($p->get_text('/p')); # find the description $tag = $p->get_tag('p'); $school{'description'} = $p->get_text('/p'); } } print qq/$school{'name'}\n/; print qq/$school{'location'}\n/; print qq/$school{'type'}\n/; foreach (@{$school{'address'}}) { print "$_\n"; } print qq/\nDescription: $school{'description'}\n/; sub clean_address { my $text = shift; my @lines = split "\n", $text; foreach (@lines) { s/^\s+//; s/\s+$//; } return \@lines; }
        
        Ich arbeite ja auf Linux (OpenSuse 11.3) bin wie gesagt noch am überlegen. Will das Script einfach nur mal zum Laufen bringen.
        
        So dass es sich die HTML-Files aus dem Ordner holt - und parst - und dann die Resultate in eine (!) Datei reinschreibt. Das alles einfach hart oder festeverdrahtet ist das erste Ziel das ich momentan vor Augen habe.
        
        Dann kann ich mich später um Finessen, Details u. a. m. kümmern.
        
        Zualleresrst sollte das halt mal zum Rennen kommen... Wie würdest du das "festverdrahten - wenn sagen wir jetzt mal, alles in einem Ordner drinne ist... und sagen wir jetzt der Einfachheit halber - alles in /usr/bin
        drinne ist.
        
        Freu mich wenn du mir hier auf die Sprünge hilfst.
        
        lin ;-)
        
        +5 replies
        
        nepos
        
        2010-09-30 08:22
        
        User since
        2005-08-17
        1420 Artikel
        BenutzerIn
        
        Wenns nur ein Skript ist, das du benutzt, dann würde ich es in deinem Home-Directory nach ~/bin/ legen.
        
        Was genau ist denn nun dein Problem mit den Pfaden/Dateien/Directories? Ich lese den Thread ja ein wenig mit, aber mir ist dein Problem in der Ecke noch total unklar.
        Woran hakts denn? Was ist dir denn unklar?
        
        +4 replies
        
        lin
        
        2010-09-30 10:04
        
        User since
        2010-09-26
        35 Artikel
        BenutzerIn
        
        Hallo Nepos, guten Morgen, vielen Dank dass du geschrieben hast!! ;-)
        
        2010-09-30T06:22:31 nepos
        Wenns nur ein Skript ist, das du benutzt, dann würde ich es in deinem Home-Directory nach ~/bin/ legen.
        
        Das ist klasse. Ich denk das ich das einfach so mache! (Bin grad im Büro. Werde das aber heute Abend zu Hause gleich mal ausprobieren.
        Es ist übrigens wirklich nur ein Script (das oben genannte).
        
        Quote
        Was genau ist denn nun dein Problem mit den Pfaden/Dateien/Directories?
        
        Das was ich noch wissen muss. Wie ändere ich oder andres gesagt - passe ich das Script denn auf meinen Rechner - und die
        Lage im entsprechenden Ornder denn an. Wenn ich es also da hineinlege wo du sagtst u. empfiehlst. Dann willl ich auch - sagen wir
        der EINFACHHEIT HALBER die beiden anderen Sachen da unterbringen;
        
        -a. meine school.html befindet: Der Ordner mit den zu parsenden HTML-Files
        -b. für die Datei, die ich erzeugen möchte.
        
        Also: Ich muss in dem Script noch den Pfad angeben, wo sich meine school.html befindet. Also der Ordner in dem viele - in ihrer Struktur - sehr sehr gleiche HTML-Files drinne sind, parsen lassen. Diesen Ordner muss ich doch in seinem Pfad im Perl-Script erwähnen und "unterbringen" - Also den Pfad dazu angeben.
        
        Das Gleiche gilt für die Datei, die ich erzeugen möchte.
        Diese beiden Dateien muss ich noch angegen im Code. Ich will es am liebsten also "festverdrahtet".
        
        Am Besten, dass ich alles in einen Ordner reinlege. Also - das Problem ist: ich sollte in dem Script alle Pfade defniiert haben: für...
        
        -a. meine school.html befindet: Der Ordner mit den zu parsenden HTML-Files(sind so 400 Stück)
        -b. für die Datei, die ich erzeugen möchte.
        
        Also - ganz schlicht gefragt: kannst Du mir im o.g. Code zeigen wie die beiden Pfade heißen...:
        
        Und zwar -wenn wir davon ausgehen dass alles das script u. die
        Datei mit den zu parsenden Files u. die zu erzeugende Datei in meinem Home-Directory nach ~/bin/ gelegt werden...
        
        Bitte sag wenn ich es noch mehr oder anders erklären soll.
        
        vielen Dank!
        
        Lin
        
        BTW; muss also das hier angegben - im Code.
        
        Code: (dl )
        
        1 2 3 4 5
        
        # Verzeichnis in dem die HTML-Dateien gespeichert sind my $html_dir = '/path/to/dir/with/html.files'; # hole alle .html-Dateien aus dem Verzeichnis my @html_files = File::Find::Rule->file->name( '*.html' )->in( $html_dir );
        
        u den ort wo die zu erzeugende DATEI hinkommt. KAnnst du das in den code reinschreiben..
        
        +3 replies
        
        Gast wer
        
        2010-09-30 11:18
        
        2010-09-30T08:04:41 lin
        
        Code: (dl )
        
        1 2 3 4 5
        
        # Verzeichnis in dem die HTML-Dateien gespeichert sind my $html_dir = '/path/to/dir/with/html.files'; # hole alle .html-Dateien aus dem Verzeichnis my @html_files = File::Find::Rule->file->name( '*.html' )->in( $html_dir );
        
        "File::Find::Rule" sucht im angebenden Ordner und alle darunter gelegenen Ordner Dateien, die eine bestimmte Bedingung erfüllen. In deinem Fall werden nach Dateien mit der Endung ".html" gesucht. "$html_dir" ist der Ort wo "File::Find::Rule" anfängt zu suchen. Wenn du alle HTML-Dateien z.B in "/home/lin/Documents/web" hast, setze $html_dir = '/home/lin/Documents/web'. Wenn du es in direkt in deinem Homeverzeichnis hast. Setze $html_dir = '/home/lin'. Aber Vorsicht, wie schon gesagt, "File::Find::Rule" durchsuht auch alle unterordneten Ordner, sind das viele kann das etwas dauern. Unter Umständen findet war auch Dateien, die dich nicht interessieren.
        Für die eigenen Dokumente hat man unter den meisten Distributionen den Ordner "Documents" in deinem Homeverzeichnis (ohne zu wissen wie er wirklich hießt habe ich ihn "/home/lin" genannt) in ihn kannst du alle Dateien, unterbringen. Lege hier am besten einen eigenen Ordner für die HTML-Dateien an. Den vollständigen pfad kannst du dann in "$html_dir" eintragen.
        Last edited: 2010-09-30 11:20:06 +0200 (CEST)
        
        +2 replies
        
        renee
        
        2010-09-30 11:22
        
        User since
        2003-08-04
        14371 Artikel
        ModeratorIn
        
        Wenn Unterordner nicht durchsucht werden sollen, kann man auch
        
        my @html_files = File::Find::Rule->file->name( '*.html' )->maxdepth( 1 )->in( $html_dir );
        
        schreiben.
        OTRS-Erweiterungen (http://feature-addons.de/)
        Frankfurt Perlmongers (http://frankfurt.pm/)
        --
        
        Unterlagen OTRS-Workshop 2012: http://otrs.perl-services.de/workshop.html
        Perl-Entwicklung: http://perl-services.de/
        
        lin
        
        2010-09-30 16:30
        
        User since
        2010-09-26
        35 Artikel
        BenutzerIn
        
        hallo Guest hallo Renee
        
        vielen Dank für eure tolle Hilfe. Das ist klasse.
        
        Ein überragender Support in diesem Forum. Ich bin total begeistert.
        
        Werde das heute Abend gleich ausprobieren u. mich wieder melden.
        
        Bis später!
        
        viele Grüße !!!
        
        lin
        
        PS Ich bau das mal in den Code ein - die Pfade werde ich einbauen!
        Werde diese folgende Zeile so einbauen:
        
        Diese
        
        Code: (dl )
        
        my @html_files = File::Find::Rule->file->name( '*.html' )->maxdepth( 1 )->in( $html_dir );
        
        geht rein in den Code. Und dann noch einen Pfad - für die zu erzeugende Datei einbauen...: Die (ser) Pfad muss auch noch rein...
        
        Code: (dl )
        
        1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67
        
        #!/usr/bin/perl use strict; use warnings; use HTML::TokeParser; my $file = 'school.html'; my $p = HTML::TokeParser->new($file) or die "Can't open: $!"; my %school; while (my $tag = $p->get_tag('div', '/html')) { # first move to the right div that contains the information last if $tag->[0] eq '/html'; next unless exists $tag->[1]{'id'} and $tag->[1]{'id'} eq 'inhalt_large'; $p->get_tag('h1'); $school{'location'} = $p->get_text('/h1'); while (my $tag = $p->get_tag('div')) { last if exists $tag->[1]{'id'} and $tag->[1]{'id'} eq 'fusszeile'; # get the school name from the heading next unless exists $tag->[1]{'class'} and $tag->[1]{'class'} eq 'fm_linkeSpalte'; $p->get_tag('h2'); $school{'name'} = $p->get_text('/h2'); # verify format for school type $tag = $p->get_tag('span'); unless (exists $tag->[1]{'class'} and $tag->[1]{'class'} eq 'schulart_text') { warn "unexpected format: parsing stopped"; last; } $school{'type'} = $p->get_text('/span'); # verify format for address $tag = $p->get_tag('p'); unless (exists $tag->[1]{'class'} and $tag->[1]{'class'} eq 'einzel_text') { warn "unexpected format: parsing stopped"; last; } $school{'address'} = clean_address($p->get_text('/p')); # find the description $tag = $p->get_tag('p'); $school{'description'} = $p->get_text('/p'); } } print qq/$school{'name'}\n/; print qq/$school{'location'}\n/; print qq/$school{'type'}\n/; foreach (@{$school{'address'}}) { print "$_\n"; } print qq/\nDescription: $school{'description'}\n/; sub clean_address { my $text = shift; my @lines = split "\n", $text; foreach (@lines) { s/^\s+//; s/\s+$//; } return \@lines; }
        
        Dann ist alles vollständig.
        
        lg lin
        
        Ich werde das Ergebnis des umgebauten - bzw. editierten Codes hier reinstellen. Dann könnt ihr nochmals drübrergucken...
        Last edited: 2010-09-30 17:11:53 +0200 (CEST)

View all threads created 2010-09-27 20:31.