I/O Operations: Pfade übertragen auf einen HTML-Parser (Allgemeines zu Perl)

[thread]15502[/thread]

I/O Operations: Pfade übertragen auf einen HTML-Parser

Leser: 28

Articles: hide open all | hide show old branches

+18 replies
lin

2010-10-03 13:29
User since
2010-09-26
35 Artikel
BenutzerIn
Hallo Community, guten Tag!

also durch die Vorübungen bin ich jetzt dann doch weitergekommen.
Da ich Starter war - neu bei Linux auf OpenSuse 11.3 und gleichermaßen neu auch bei Perl war das bisher einiges an Neuem:

Jetzt habe ich aber einen Startpunkt - denn ich kenn die Pfade jetzt einigermaßen:

Der Code des HTML-Parsers (siehe unten), der noch pfadmäßig angepasst werden muss.

a. auf den Pfad zu dem Directory, das die zu parsenden Files enthält
b. auf den Pfad zu der zu erzeugenden Datei - mit den Ergebnissen des Parserjobs

Mich hat einer darauf hingewiesen dass ich aufpasen soll - nicht alles als root machen. Ich hab einige Übungen auf (/unter) Root gemacht.

Jetzt ists mir wichtig mal einen proof of concept zu kriegen - herauszukriegen ob der Parser auch läuft!? Den Code hier sollte ich also anpassen:
Code (perl): (dl )

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67

#!/usr/bin/perl use strict; use warnings; use HTML::TokeParser; my $file = 'school.html'; my $p = HTML::TokeParser->new($file) or die "Can't open: $!"; my %school; while (my $tag = $p->get_tag('div', '/html')) { # first move to the right div that contains the information last if $tag->[0] eq '/html'; next unless exists $tag->[1]{'id'} and $tag->[1]{'id'} eq 'inhalt_large'; $p->get_tag('h1'); $school{'location'} = $p->get_text('/h1'); while (my $tag = $p->get_tag('div')) { last if exists $tag->[1]{'id'} and $tag->[1]{'id'} eq 'fusszeile'; # get the school name from the heading next unless exists $tag->[1]{'class'} and $tag->[1]{'class'} eq 'fm_linkeSpalte'; $p->get_tag('h2'); $school{'name'} = $p->get_text('/h2'); # verify format for school type $tag = $p->get_tag('span'); unless (exists $tag->[1]{'class'} and $tag->[1]{'class'} eq 'schulart_text') { warn "unexpected format: parsing stopped"; last; } $school{'type'} = $p->get_text('/span'); # verify format for address $tag = $p->get_tag('p'); unless (exists $tag->[1]{'class'} and $tag->[1]{'class'} eq 'einzel_text') { warn "unexpected format: parsing stopped"; last; } $school{'address'} = clean_address($p->get_text('/p')); # find the description $tag = $p->get_tag('p'); $school{'description'} = $p->get_text('/p'); } } print qq/$school{'name'}\n/; print qq/$school{'location'}\n/; print qq/$school{'type'}\n/; foreach (@{$school{'address'}}) { print "$_\n"; } print qq/\nDescription: $school{'description'}\n/; sub clean_address { my $text = shift; my @lines = split "\n", $text; foreach (@lines) { s/^\s+//; s/\s+$//; } return \@lines; }
BTW: einige Fragen an den Code :

was macht das Array @html_files?

> my @html_files = File::Find::Rule->file->name( '*.html.files' )->in( $
> +html_dir );

Was macht das plus Zeichen hier? Was mach ich mit der variable $htmo_dir. Das arbeitet wenn $html_dir
einen Pfad hat (absolut oder relative) der Top-Level directory um die HTML files zu suchen.

>print qq/$school{'name'}n/;

Sollte hier nicht stehen: \n anstat nur n: Parenthese würde das wohl verhindern, dass
das qq argument wie eine regular expression aussieht.

Was ich gestern - mit euch hier - herausgefunden habe:

b. die Pfade -.herausgefunden mit einem kürzeren Script, das ich mal perl_script_two.pl genannt habe und das in
Code (perl): (dl )

1 2 3 4 5 6 7 8 9 10 11 12 13 14

/usr/perl drinneliegt: #!/usr/bin/perl use strict; use warnings; use diagnostics; use File::Find::Rule; my @files = File::Find::Rule->file() ->name('einzelergebnis*.html') ->in( '.' ); foreach my $file(@files) { print $file, "\n"; }
Das hat den folgenden Output zur Folge:

Quote
htmlfiles/einzelergebnis80b5.html
htmlfiles/einzelergebnisa0ef.html
htmlfiles/einzelergebnis1b42.html
htmlfiles/einzelergebnis5960.html
htmlfiles/einzelergebnise523.html
htmlfiles/einzelergebnis2c7e.html
htmlfiles/einzelergebnisdf57.html
htmlfiles/einzelergebnis2b53-2.html
htmlfiles/einzelergebnisb1c0-2.html
....und 22 Tausend weitere Zeilen ... ;-)

- jetzt sollte also das o.g. script angepasst werden, damit
ich mal überhaupt sehe ob das geht!?

Wenn ich noch mehr erklären soll - dann einfach kurz Bescheid sagen.

Freu mich auf tipps.

euer Lin ;-)
- pq
  
  2010-10-03 15:04
  
  User since
  2003-08-04
  12209 Artikel
  Admin1
  
  crosspost: 863020
  Always code as if the guy who ends up maintaining your code will be a violent psychopath who knows where you live. -- Damian Conway in "Perl Best Practices"
  lesen: Wie frage ich & perlintro brian's Leitfaden für jedes Perl-Problem
- +16 replies
- pq
  
  2010-10-03 15:11
  
  User since
  2003-08-04
  12209 Artikel
  Admin1
  
  2010-10-03T11:29:57 lin
  > my @html_files = File::Find::Rule->file->name( '*.html.files' )->in( $
  > +html_dir );
  
  Was macht das plus Zeichen hier?
  
  das pluszeichen kommt von der code-darstellung bei perlmonks. dort wird code auf diese art und weise umgebrochen, wenn die zeilen zu lang sind. schreib einfach das nächste mal dazu, wenn du das ganze schon woanders gepostet hast (siehe auch unsere FAQ). ich habe bei dem pluszeichen einfach mal geraten und bei perlmonks nach dem thread gesucht. wäre also einfacher gewesen, wenn du gleich auf den perlmonks-thread verlinkt hättest.
  Always code as if the guy who ends up maintaining your code will be a violent psychopath who knows where you live. -- Damian Conway in "Perl Best Practices"
  lesen: Wie frage ich & perlintro brian's Leitfaden für jedes Perl-Problem
  - +15 replies
  - lin
    
    2010-10-03 17:33
    
    User since
    2010-09-26
    35 Artikel
    BenutzerIn
    
    Hi pq - vielen Dank fürs Antworten.
    
    Ja - ich hab das auch bei den Perlmonks diskutiert. Habe euch hier erst jetzt entdeckt.
    
    Ich bin erstmal froh dass das mit dem Pluszeichen geklärt ist.
    
    Werde ab Montag enige Sachen ausprobieren _ mit dem Script.
    
    Dir vielen Dank
    
    Gruß lin
    Last edited: 2010-10-03 19:03:04 +0200 (CEST)
    - +14 replies
    - lin
      
      2010-10-03 21:38
      
      User since
      2010-09-26
      35 Artikel
      BenutzerIn
      
      Hi Perler, guten Abend!
      
      hier bin ich wieder: Ich hab mich mal selber drangemacht.
      Aus den obigen Befunden habe ich folgendes gefunden:
      
      my @files = File::Find::Rule->file()
      ->name('einzelergebnis*.html')
      
      Aus dem gestern noch angewendeten Code-Schnippel hab ich diesen o.g. Teil rausgeschnitten.
      
      Code (perl): (dl )
      
      1 2 3 4 5 6 7 8 9
      
      PHP Code: #!/usr/bin/perl use strict; use warnings; use diagnostics; use File::Find::Rule; my @files = File::Find::Rule->file() ->name('einzelergebnis*.html') ->in('.');
      
      Die zwei kleinen Zeilen habe ich als Pfad-Definitionen auf den folgenden Code übertragen - und dann via Kommandozeile ausführen lassen.
      
      Code (perl): (dl )
      
      1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72
      
      #!/usr/bin/perl use strict; use warnings; use diagnostics; use File::Find::Rule; use HTML::TokeParser; #my $file = 'school.html' my@files= File::Find::Rule->file() ->name('einzelergebnis*.html') ->in(*'.'*); my $p = HTML::TokeParser->new($file) or die "Can't open: $!"; my %school; while (my $tag = $p->get_tag('div', '/html')) { # first move to the right div that contains the information last if $tag->[0] eq '/html'; next unless exists $tag->[1]{'id'} and $tag->[1]{'id'} eq 'inhalt_large'; $p->get_tag('h1'); $school{'location'} = $p->get_text('/h1'); while (my $tag = $p->get_tag('div')) { last if exists $tag->[1]{'id'} and $tag->[1]{'id'} eq 'fusszeile'; # get the school name from the heading next unless exists $tag->[1]{'class'} and $tag->[1]{'class'} eq 'fm_linkeSpalte'; $p->get_tag('h2'); $school{'name'} = $p->get_text('/h2'); # verify format for school type $tag = $p->get_tag('span'); unless (exists $tag->[1]{'class'} and $tag->[1]{'class'} eq 'schulart_text') { warn "unexpected format: parsing stopped"; last; } $school{'type'} = $p->get_text('/span'); # verify format for address $tag = $p->get_tag('p'); unless (exists $tag->[1]{'class'} and $tag->[1]{'class'} eq 'einzel_text') { warn "unexpected format: parsing stopped"; last; } $school{'address'} = clean_address($p->get_text('/p')); # find the description $tag = $p->get_tag('p'); $school{'description'} = $p->get_text('/p'); } } print qq/$school{'name'}n/; print qq/$school{'location'}n/; print qq/$school{'type'}n/; foreach (@{$school{'address'}}) { print "$_\n"; } print qq/nDescription: $school{'description'}n/; sub clean_address { my $text = shift; my @lines = split "\n", $text; foreach (@lines) { s/^s+//; s/s+$//; } return @lines; }
      
      resultate:
      
      # perl perl_script_four.pl
      
      Quote
      suse-linux:/usr/perl # perl perl_script_four.pl
      Global symbol "$file" requires explicit package name at perl_script_four.pl line 15.
      Execution of perl_script_four.pl aborted due to compilation errors (#1)
      (F) You've said "use strict" or "use strict vars", which indicates
      that all variables must either be lexically scoped (using "my" or "state"),
      declared beforehand using "our", or explicitly qualified to say
      which package the global variable is in (using "::").
      
      Uncaught exception from user code:
      Global symbol "$file" requires explicit package name at perl_script_four.pl line 15.
      Execution of perl_script_four.pl aborted due to compilation errors.
      at perl_script_four.pl line 73
      suse-linux:/usr/perl #
      
      Also - jetzt muss ich erstmal gucken was da los ist!? Einen Haufen Fehler dürfe da halt drinne sein...
      
      auch wenn ich die Zeile 15 verändere - und so wie folgt schreibe wird es nicht besser:
      
      Code (perl): (dl )
      
      my $p = HTML::TokeParser->new('einzelergebnis*.html') or die "Can't open: $!";
      
      Resultat:
      
      Quote
      suse-linux:/usr/perl # perl perl_script_four.pl
      Uncaught exception from user code:
      Can't open: No such file or directory at perl_script_four.pl line 15.
      at perl_script_four.pl line 15
      
      ich werde mal weitersuchen müssen. Wenn jemand einen Tipp hat bin ich sehr dankbar!
      Last edited: 2010-10-03 21:55:57 +0200 (CEST)
      - +13 replies
      - topeg
        
        2010-10-03 23:47
        
        User since
        2006-07-10
        2611 Artikel
        BenutzerIn
        
        Ich habe den Code mal lauffähig gemacht. Schau ihn dir an und versuche ihn zu verstehen. Ich hoffe die Kommentare helfen
        
        Code (perl): (dl )
        
        1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120
        
        #!/usr/bin/perl use strict; # alles muss definiert sein use warnings; # wenn etwas nicht so ganz richtig ist warnen use diagnostics; # wenn etwas nicht passt ist warnen use File::Find::Rule; # finde Dateien/Verzeichnisse anhand von Regeln use HTML::TokeParser; # parse HTML-Dateien zum leichten auslesen von Daten # Array in der alle Schulen mit ihren Daten gespeichert werden sollen my @schools; # Das Verzeichnis im dem gesucht werden soll my $search_dir='.'; # ist das aktuelle Arbeitsverzeichnis # die Datei in die alles gespeichert werden soll my $out_file='./output.xml'; # Suche nach bestimmten Dateinamen my @files= File::Find::Rule->file() # suche eine Datei ->name('einzelergebnis*.html') # die mit "einzelergebnis" (alles klein geschieben!) beginnt und mit ".html" endet ->in($search_dir); # suche in dem Verzeichnis #gehe alle gefundenen Dateien durch for my $file (@files) { # Ausgabe, damit man weiß waw passiert. print "Bearbeite nun datei: $file!\n"; # Speichrort für die Schuldaten in dieser Datei my %school; # starte seine neue Parser-Instanz mit der Datei als Quelle my $p = HTML::TokeParser->new($file) or die "Can't open $file: ($!)"; #solange ein Tag von Typ 'div' gefunden wird while (my $tag = $p->get_tag('div', '/html')) { # first move to the right div that contains the information last if $tag->[0] eq '/html'; next unless exists $tag->[1]{'id'} and $tag->[1]{'id'} eq 'inhalt_large'; $p->get_tag('h1'); $school{'location'} = $p->get_text('/h1'); while (my $tag = $p->get_tag('div')) { last if exists $tag->[1]{'id'} and $tag->[1]{'id'} eq 'fusszeile'; # get the school name from the heading next unless exists $tag->[1]{'class'} and $tag->[1]{'class'} eq 'fm_linkeSpalte'; $p->get_tag('h2'); $school{'name'} = $p->get_text('/h2'); # verify format for school type $tag = $p->get_tag('span'); unless (exists $tag->[1]{'class'} and $tag->[1]{'class'} eq 'schulart_text') { warn "unexpected format: parsing stopped"; last; } $school{'type'} = $p->get_text('/span'); # verify format for address $tag = $p->get_tag('p'); unless (exists $tag->[1]{'class'} and $tag->[1]{'class'} eq 'einzel_text') { warn "unexpected format: parsing stopped"; last; } $school{'address'} = clean_address($p->get_text('/p')); # find the description $tag = $p->get_tag('p'); $school{'description'} = $p->get_text('/p'); } } # speichere eine refenz auf den Hash mit den Daten der aktuellen Schule im Array mit allen Schulen push(@schools,\%school); } # Ausgabe in eine Datei als einfaches "XML" formatiert: open(my $fh, '>', $out_file) or die("Error open $out_file ($!)\n"); print $fh "<schools>\n"; for my $school (@schools) { print $fh " <school>\n"; print $fh " <name>$school->{name}</name>\n"; print $fh " <location>$school->{location}</location>\n"; print $fh " <type>$school->{type}<type>\n"; print $fh " <address>\n"; for my $address (@{$school->{address}}) { print $fh " <entry>$address</entry>\n"; } print $fh " </address>\n"; print $fh " <description>$school->{description}</description>\n"; print $fh " </school>\n"; } print $fh "</schools>\n"; close($fh); ########################################################################## # Funktion um die Adressen von unnötigen Zeichen zu befreihen # und als Array jede Zeile zurück zu liefern sub clean_address { my $text = shift; my @lines = split "\n", $text; for (@lines) { s/^s+//; s/s+$//; } return \@lines; }
        
        Last edited: 2010-10-03 23:50:31 +0200 (CEST)
        
        lin
        
        2010-10-04 07:14
        
        User since
        2010-09-26
        35 Artikel
        BenutzerIn
        
        hi guten Morgen
        
        muss gleich ins Büro. Werde das aber alles heute Abend ausprobieren.
        
        Ganz ganz vielen Dank! DAS ist so klasse dass man hier so viel Hilfe bekommt.
        
        Bis später - und Dir (u allen hier einen klasse Wochennstart!!)
        
        lg lin ;-)
        
        +11 replies
        
        lin
        
        2010-10-04 22:35
        
        User since
        2010-09-26
        35 Artikel
        BenutzerIn
        
        Hi Topeg
        
        da bin ich wieder! Hab einen sehr langen Tag gehabt.
        
        Vielen Dank nochmals für das Script!! Bin grad nach Hause gekommen.
        
        ich hab das Script mal eingefügt in das Arbeitsverzeichnis. Das scheint echt klasse zu sein. Es läuft schon seit ca. 20 Minuten.
        
        Seit 20 Minuten schreibt die Konsole am laufenden Band....
        
        Bearbeite nun datei: einzelergebnis7b2pö.html!
        Bearbeite nun datei: einzelergebnis7b2x.html!
        Bearbeite nun datei: einzelergebnis7b2xy.html!
        Bearbeite nun datei: einzelergebnis7b2xf.html!
        
        usw. usf. - So wie es aussieht arbeite der Parser jetzt die 22000 Einzelergebnisse - also die HTML-Files durch. Klasse Sache.
        
        Währenddessen werde ich ds Script so wie du es umgebaut u. gecodet hast mal versuchen genauer zu verstehen.
        
        update nachdem es ungefähr eine halbe Stunde im Schirm (in der Console permanent so weiterging mit der duchlaufenden Botschaft:
        
        Quote
        Bearbeite nun datei: htmlfiles/einzelergebnis2592.html!
        Bearbeite nun datei: htmlfiles/einzelergebnisdee0.html!
        Bearbeite nun datei: htmlfiles/einzelergebnis987b-2.html!
        Bearbeite nun datei: htmlfiles/einzelergebnise20b.html!
        unexpected format: parsing stopped at perl_script_six.pl line 59.
        Bearbeite nun datei: htmlfiles/einzelergebnised05.html!
        Bearbeite nun datei: htmlfiles/einzelergebnisdec3.html!
        
        ....kam dann irgendwann ein Ende:...und das hier:
        
        Quote
        Use of uninitialized value in concatenation (.) or string at perl_script_six.pl
        line 92 (#1)
        (W uninitialized) An undefined value was used as if it were already
        defined. It was interpreted as a "" or a 0, but maybe it was a mistake.
        To suppress this warning assign a defined value to your variables.
        To help you figure out what was undefined, perl will try to tell you the
        name of the variable (if any) that was undefined. In some cases it cannot
        do this, so it also tells you what operation you used the undefined value
        in. Note, however, that perl optimizes your program and the operation
        displayed in the warning may not necessarily appear literally in your
        program. For example, "that $foo" is usually optimized into "that "
        . $foo, and the warning will refer to the concatenation (.) operator,
        even though there is no . in your program.
        
        Use of uninitialized value in concatenation (.) or string at perl_script_six.pl line 99 (#1)
        Wide character in print at perl_script_six.pl line 99 (#2)
        (S utf8) Perl met a wide character (>255) when it wasn't expecting
        one. This warning is by default on for I/O (like print). The easiest
        way to quiet this warning is simply to add the :utf8 layer to the
        output, e.g. binmode STDOUT, ':utf8'. Another way to turn off the
        warning is to add no warnings 'utf8'; but that is often closer to
        cheating. In general, you are supposed to explicitly mark the
        filehandle with an encoding, see open and perlfunc/binmode.
        
        Wide character in print at perl_script_six.pl line 90 (#2)
        Use of uninitialized value in concatenation (.) or string at
        
        perl_script_six.pl
        line 90 (#1)
        Use of uninitialized value in concatenation (.) or string at perl_script_six.pl
        line 91 (#1)
        suse-linux:/usr/perl #
        
        Jetzt versuch ich mal und guck was sonst noch passiert ist - ob eine Datei angelegt wurde und so weiter.
        
        Also es hat eine 14MEG große XML-Datei angelegt. Das ist großartig. Ich bin begeistert. Werde dir später zu den Ergebnissen und darüber hinaus noch einiges schreiben. Ich bin total begeistert - ehrlich. Du hast ja im Grunde - soweit ich weiß - die Aufgabe gar nicht von Anfang an gekannt. Sondern du hast allein das Script als Ausgangslage gehabt.
        
        Ich werd dazu später noch was schreiben.
        
        Als ich das Script vorhin nochmals laufen hab lassen hat es wieder eine halbe Stunde gearbeitet ehe ein Abbruch kam. Guck dir das mal an - das sieht nach einem etwas anderen Abbruch aus....
        
        Quote
        
        htmlfiles/einzelergebnis987b-2.html!
        Bearbeite nun datei: htmlfiles/einzelergebnise20b.html!
        unexpected format: parsing stopped at perl_script_six.pl line 59.
        Bearbeite nun datei: htmlfiles/einzelergebnised05.html!
        Bearbeite nun datei: htmlfiles/einzelergebnisdec3.html!
        Use of uninitialized value in concatenation (.) or string at perl_script_six.pl line 92 (#1)
        (W uninitialized) An undefined value was used as if it were already
        defined. It was interpreted as a "" or a 0, but maybe it was a mistake.
        To suppress this warning assign a defined value to your variables.
        To help you figure out what was undefined, perl will try to tell you the
        name of the variable (if any) that was undefined. In some cases it cannot
        do this, so it also tells you what operation you used the undefined value
        in. Note, however, that perl optimizes your program and the operation
        displayed in the warning may not necessarily appear literally in your
        program. For example, "that $foo" is usually optimized into "that "
        $foo, and the warning will refer to the concatenation (.) operator,
        even though there is no . in your program.
        
        Use of uninitialized value in concatenation (.) or string at perl_script_six.pl
        line 99 (#1)
        
        Wide character in print at perl_script_six.pl line 99 (#2)
        (S utf8) Perl met a wide character (>255) when it wasn't expecting
        one. This warning is by default on for I/O (like print). The easiest
        way to quiet this warning is simply to add the :utf8 layer to the
        output, e.g. binmode STDOUT, ':utf8'. Another way to turn off the
        warning is to add no warnings 'utf8'; but that is often closer to
        cheating. In general, you are supposed to explicitly mark the
        filehandle with an encoding, see open and perlfunc/binmode.
        
        Wide character in print at perl_script_six.pl line 90 (#2)
        Use of uninitialized value in concatenation (.) or string at perl_script_six.pl
        line 90 (#1)
        Use of uninitialized value in concatenation (.) or string at perl_script_six.pl
        line 91 (#1)
        suse-linux:/usr/perl #
        
        ich meld mich wieder. Spätestens im Verlaufe des Dienstags.
        An dieser Stelle: Viele Grüße und nochmals vielen Dank!!
        
        Greetz
        lin ;-)
        Last edited: 2010-10-05 00:32:57 +0200 (CEST)
        
        +10 replies
        
        topeg
        
        2010-10-05 00:25
        
        User since
        2006-07-10
        2611 Artikel
        BenutzerIn
        
        Wer hätte gedacht, dass du den Code ohne irgendwelche Tests auf alle Daten los lässt. Der Code ist nicht optimal oder so voll einsatzfähig, er sollte dir nur zeigen wie er lauffähig sein könnte. Ich weiß ja nicht, was du mit den Daten anfangen willst. So kann es sein, dass nicht alle Informationen gefunden werden und damit einige Feldern nicht definiert wurden (was die Warnung auch besagte). Ich weiß nicht was du mit den unvollständigen Informationen machen willst. Der Code war als Beispiel und Lernhilfe gedacht, nicht als fertiges Script. Dieses auf alle deine Daten los zu lassen war mehr als fahrlässig, zumal ich den Code nicht mal getestet hatte!
        
        Kannst du dir wenigstens vorstellen woher die nicht definierten Werte kommen? Warum die Warnung "unexpected format: parsing stopped at perl_script_six.pl line 59." auftauchte und was dir "diagnostic" im zweiten Quote sagen will.
        
        Ich übernehme nicht deine Arbeit. Lernen musst du schon selber. :-)
        
        lin
        
        2010-10-05 00:35
        
        User since
        2010-09-26
        35 Artikel
        BenutzerIn
        
        hi danke fürs posten.
        
        Deine Ideen sind hilfreich. Auch die Meldungen von Perl. Ich werde mir das mal genauer angucken.
        BTW: Weiß auch dass das Script ein proof of concept war.
        
        Ich schau das mal später genauer an...
        
        Gruß
        lin
        
        +8 replies
        
        lin
        
        2010-10-05 07:51
        
        User since
        2010-09-26
        35 Artikel
        BenutzerIn
        
        Hi Topac, guten Morgen!
        
        Du hast den Code - ich vergleiche das jetzt mal und geh den Code durch. Zeile für Zeile...
        
        Code (perl): (dl )
        
        1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119
        
        #!/usr/bin/perl use strict; # alles muss definiert sein use warnings; # wenn etwas nicht so ganz richtig ist warnen use diagnostics; # wenn etwas nicht passt ist warnen use File::Find::Rule; # finde Dateien/Verzeichnisse anhand von Regeln use HTML::TokeParser; # parse HTML-Dateien zum leichten auslesen von Daten # Array in der alle Schulen mit ihren Daten gespeichert werden sollen my @schools; # Das Verzeichnis im dem gesucht werden soll my $search_dir='.'; # ist das aktuelle Arbeitsverzeichnis # die Datei in die alles gespeichert werden soll my $out_file='./output.xml'; # Suche nach bestimmten Dateinamen my @files= File::Find::Rule->file() # suche eine Datei ->name('einzelergebnis*.html') # die mit "einzelergebnis" (alles klein geschieben!) beginnt und mit ".html" endet ->in($search_dir); # suche in dem Verzeichnis #gehe alle gefundenen Dateien durch for my $file (@files) { # Ausgabe, damit man weiß waw passiert. print "Bearbeite nun datei: $file!\n"; # Speichrort für die Schuldaten in dieser Datei my %school; # starte seine neue Parser-Instanz mit der Datei als Quelle my $p = HTML::TokeParser->new($file) or die "Can't open $file: ($!)"; #solange ein Tag von Typ 'div' gefunden wird while (my $tag = $p->get_tag('div', '/html')) { # first move to the right div that contains the information last if $tag->[0] eq '/html'; next unless exists $tag->[1]{'id'} and $tag->[1]{'id'} eq 'inhalt_large'; $p->get_tag('h1'); $school{'location'} = $p->get_text('/h1'); while (my $tag = $p->get_tag('div')) { last if exists $tag->[1]{'id'} and $tag->[1]{'id'} eq 'fusszeile'; # get the school name from the heading next unless exists $tag->[1]{'class'} and $tag->[1]{'class'} eq 'fm_linkeSpalte'; $p->get_tag('h2'); $school{'name'} = $p->get_text('/h2'); # verify format for school type $tag = $p->get_tag('span'); unless (exists $tag->[1]{'class'} and $tag->[1]{'class'} eq 'schulart_text') { warn "unexpected format: parsing stopped"; last; } $school{'type'} = $p->get_text('/span'); # verify format for address $tag = $p->get_tag('p'); unless (exists $tag->[1]{'class'} and $tag->[1]{'class'} eq 'einzel_text') { warn "unexpected format: parsing stopped"; last; } $school{'address'} = clean_address($p->get_text('/p')); # find the description $tag = $p->get_tag('p'); $school{'description'} = $p->get_text('/p'); } } # speichere eine refenz auf den Hash mit den Daten der aktuellen Schule im Array mit allen Schulen push(@schools,\%school); } # Ausgabe in eine Datei als einfaches "XML" formatiert: open(my $fh, '>', $out_file) or die("Error open $out_file ($!)\n"); print $fh "<schools>\n"; for my $school (@schools) { print $fh " <school>\n"; print $fh " <name>$school->{name}</name>\n"; print $fh " <location>$school->{location}</location>\n"; print $fh " <type>$school->{type}<type>\n"; print $fh " <address>\n"; for my $address (@{$school->{address}}) { print $fh " <entry>$address</entry>\n"; } print $fh " </address>\n"; print $fh " <description>$school->{description}</description>\n"; print $fh " </school>\n"; } print $fh "</schools>\n"; close($fh); ########################################################################## # Funktion um die Adressen von unnötigen Zeichen zu befreihen # und als Array jede Zeile zurück zu liefern sub clean_address { my $text = shift; my @lines = split "\n", $text; for (@lines) { s/^s+//; s/s+$//; } return \@lines; }
        
        Danke - eine wertvolle Chance zu lernen am praktischen code!
        
        2010-10-04T22:25:48 topeg
        Kannst du dir wenigstens vorstellen woher die nicht definierten Werte kommen? Warum die Warnung "unexpected format: parsing stopped at perl_script_six.pl line 59." auftauchte und was dir "diagnostic" im zweiten Quote sagen will. Ich übernehme nicht deine Arbeit. Lernen musst du schon selber. :-)
        
        Da ist was im Format anders gewesen. Es gab ein Einzelergebnis das den Parser gestoppt hat. Gute Moeglichkeit zu lernen!
        
        ich schau mir das heute Abend genauer an!
        
        Meld mich später wieder!
        
        lg
        lin
        
        nebenbei: neu sind von dir [u.a.]
        
        Z9 - 10: # Array in der alle Schulen mit ihren Daten gespeichert werden sollen
        my @schools;
        
        Z 31 -32: # Speichrort für die Schuldaten in dieser Datei
        my %school;
        
        Frage: was ist hier denn der Unterschied!? Ich frag mich warum du das Array eingebaut hast. Werde dem mal heute nachgehen. Das hat das Originalscript nicht. Du hast es - so läuft es. Ich überleg mir mal warum du das drinnehast!!??
        
        und ferner hast du noch:
        
        z. 81 # speichere eine refenz auf den Hash mit den Daten der aktuellen Schule im Array mit allen Schulen
        push(@schools,\%school);
        }
        
        Darüber hinaus am Ende des Scripts noch einige - sehr sehr gute & nützliche Dinge:...ich werd mal schauen, was die Zeilen machen!!
        
        Grüße
        Lin;-)
        
        mod-edit pq: BITTE KEINE TEILBÄUME FÜR KOMMENTARE VERWENDEN. JETZT NEHME ICH DEN KOMMENTAR ZUM ZWEITEN MAL RAUS!
        
        Last edited: 2010-10-05 14:20:24 +0200 (CEST)
        
        +2 replies
        
        pq
        
        2010-10-05 14:25
        
        User since
        2003-08-04
        12209 Artikel
        Admin1
        
        lin, kannst du bitte in zukunft schauen, dass du erstens nicht mehr so oft editierst. überleg dir, was du schreiben möchtest.
        und ansonsten antworte einfach in einem neuen posting, wenn du signifikant viel neues zu erzählen hast.
        deine tausenden edits gehen echt auf die nerven.
        
        zweitens sind artikel-titel und damit teilbäume NICHT dafür gedacht, kommentare wie danksagungen da reinzupacken. sie sind dafür gedacht, unterthemen abzusplitten, die nicht mehr ganz zum thema passen.
        
        ich habe eben den teilbaum wieder weggemacht, aber da du gerade in einer editier-session mit mehreren edits stecktest, hast du wohl diese änderung wieder rückgängig gemacht.
        
        denk bitte auch mal an deine leser, die irgendwann nicht mehr nachvollziehen können und wollen, was genau sich jetzt schon wieder geändert hat.
        du editierst tippfehler, schreibst aber auch mal komplette neue absätze hinzu.
        lies bitte undere FAQ.
        andere machen sich die mühe, ihre edits mit einem kommentar zu kennzeichnen.
        
        dankeschön!
        
        sobald du das gelesen hast, werde ich den thread wieder öffnen, denn damit du nicht wieder meinen edit überschreibst, habe ich den thread erstmal abgeschlossen.
        Always code as if the guy who ends up maintaining your code will be a violent psychopath who knows where you live. -- Damian Conway in "Perl Best Practices"
        lesen: Wie frage ich & perlintro brian's Leitfaden für jedes Perl-Problem
        
        pq
        
        2010-10-05 16:13
        
        User since
        2003-08-04
        12209 Artikel
        Admin1
        
        so, hab den thread mal wieder geöffnet. und ab jetzt bitte dran denken, das forum ist kein wiki. nur moderatoren haben zugriff auf die diffs.
        Always code as if the guy who ends up maintaining your code will be a violent psychopath who knows where you live. -- Damian Conway in "Perl Best Practices"
        lesen: Wie frage ich & perlintro brian's Leitfaden für jedes Perl-Problem
        
        +5 replies
        
        topeg
        
        2010-10-05 16:50
        
        User since
        2006-07-10
        2611 Artikel
        BenutzerIn
        
        Denk mal darüber nach was du eigentlich machen willst:
        Du willst alle HTML-Dateien durchgehen die mit "einzelergebnis" anfangen. In jeder Datei sind die Daten einer Schule, abgelegt, die du extrahieren willst. Du bekommst für jede Datei/Schule einen Datensatz.
        Der muss ja irgendwo so gespeichert werden, dass er nicht überschrieben wird. Da bietet sich ein Array an das du den letzten gelesenen Datensatz anhängst.
        
        Um das Script mal verbal zu beschreiben:
        
        0. lege ein Array "schools" an.
        1. suche alle Dateien die sich wie "einzelergebnis*.html" lesen
        2. gehe die liste der gefundenen Dateien durch
        
        2.0. lege ein Hash "school" an
        2.1. lese die Datei ein und extrahiere:
        
        Ort
        
        Name
        
        Typ
        
        eine Liste von Adressen
        
        Beschreibung
        2.2. Speichere die gefunden Werte in einem Hash namens "school"
        2.3. Hänge den Hash "school" an das Array "schools" an. (das muss eine Hash-Referenz sein, einen Hash "%hash" kann man nicht einfach so in ein Array packen. Da passieren ganz seltsame Dinge wenn man es versucht)
        3. öffne eine Ausgabdatei
        4. gehe das Array "schools" durch
        
        4.1 lese aus dem Hash der an jeder aktuellen stelle des Arrays ist
        
        Ort
        
        Name
        
        Typ
        
        eine Liste von Adressen
        
        Beschreibung
        
        aus und speichere die Daten in die ausagebdatei
        5. schließe die Ausgabedatei
        
        EDIT: Tabelle korrekt formatiert
        Last edited: 2010-10-05 17:37:01 +0200 (CEST)
        
        +4 replies
        
        lin
        
        2010-10-06 19:58
        
        User since
        2010-09-26
        35 Artikel
        BenutzerIn
        
        ganz vielen Dank Topeg - ganz vielen Dank auch an Dich pq für die hilfreiche Moderation.
        
        Bin ja Anfänger - und als solcher etwas unbeholfen... Das Forum ist aber klasse! Ein toller Ort zum Austausch u. zum Lernen. Eure Erklärungen sind hilfreich. Das lauffähig gemachte Testscript hab ich jetzt mal noch genauer angesehen - und mir klarzumachen versucht, warum es nicht gelaufen ist. Besonders hilfreich finde ich dein Posting von gestern - das hat nochmals viel viel geholfen. Also, man lernt am besten Programmieren, wenn man direkt reinspringt ins kalte Wasser - und dann am Besten ein paar hilfreiche Leute hat - wie Euch hier!!
        
        Der Thread hat seinen Zweck bereits mehr als erfüllt: Für alles Weitere werde ich einen neuen Thread aufmachen. BTW: Dein Ansatz Topec ist klasse. Das hat viel viel gebracht. Die Ergebnisse sind sehr überzeugend. Siehe ganz unten! Wenn man mit Perl anfängt und nicht der totale Crack ist, ist es hilfreich ein Forum wie dieses zu haben.
        
        Wei Du Topeg danach gefragt hast will ich dennoch kurz erklären woran ich arbeite: Bin oben deine Zeilen durchgegangen. Das Testscript läuft - wie gesagt - schon mal sehr gut.
        
        Grundsätzlich will ich den geparsten Datensatz für eine Mysql-anschlussfähigkeit machen und die einzelnen Werte als CSV ausgeben - also noch besser aufteilen. Das Ganze ist aber schon sehr sehr gut. Da wurde ein 13 MEG großes Datei erzeugt. Das wäre besser, wenn es mehrere kleine Files erzeugt werden. Also - nach dem Parsen von ca. 3000
        Einzelergebnissen sollte jeweils ein neues File erzeugt werden. Das wäre super. Denn dann werden die Dateien handhabbarer!
        
        Frage: Topeg hast du den Umbau so (abstrakt hingekriegt ohne zu wissen worum es geht!? Das ist ja fantastisch. Bin begeistert. Denn die Resultate sind klasse.
        
        Ganz kurz Worum es geht: diesen Thread hier - das laden dauert aber etwas lange..[sorry].. Die Seite gibt einen Überblick aus auf dt. Schulen: Treffer 1 - 10519 von 10519
        
        1. Stiftung Louisenlund, 24357 Güby
        2. Bayerische Landesanstalt für Weinbau und Gartenbau, 97205 Veitshöchheim
        3. Katharina-Fischer-Schule Sonderpädagogisches Förderzentrum Erding, 85435 Erding
        4. 02 Grundschule Reinickendorf (Am Schäfersee), 13407 Berlin
        und so weiter
        und so weiter...
        
        Nebenbei bemerkt: Warum u. wozu ich an diesem Thema arbeite? Als Pädagoge bin ich an einem Projekt, das diese Daten auf neueren Stand bringen will. Vieles ist ca. 12 bis 14 Jahre alt.
        Hier also ein ein allgemeiner Datensatz: hier ein Einzelergebnis
        
        Abstrakt gesehen: So wie hier unten ist er gewollt - um ein MySQL-DB-Aufbau herzustellen: werde also auf CSV jetzt achten und daran arbeiten!
        
        Name:
        Bundesland (Deutschland / Bundesland ->trennen in zwei Zeilen [siehe unten]!!)
        Schulart
        Adresse_0: (Postleitzahl)
        Adresse_1: (Ort)
        Adresse_2: (Straße)
        Telefon:
        Telefax:
        Schulweb-Nummer
        URL: Ergebnis aus Schulweb-Nummer und einer Ausführung des URL-Konstrukts
        Schulleitung:
        E-Mail-Schulleitung:
        Sekretariat:
        E-Mail Sekretariat:
        Webmaster:
        E-Mail-Webmaster:
        Beschreibung
        ggf. Mitglied seit:
        
        Die untersten Felder - also die vorletzen 7 Felder von Schulleitung bis Beschreibung sind nicht immer in einem Einzelergebnis. Diese will ich nur berücksichtigen.... Also wenn hier im Einzelergebnis Daten kommen, dann sollen diese Felder eben auch berücksichtig werden... Die werden in der DB also berücksichtigt u. auch "erzeugt."
        
        Topeg - das Ergebnis das beim Test rausgekommen ist ist schon echt nah dran!! Ich werd jetzt als Erstes mal daran arbeiten, dass die Werte durch Kommas getrennt werden - /(CSV) für die DB-Anschulussfähigkeit.
        
        Das hier ist das Ergebnis aus dem Testscript - Klasse!!
        
        <school>
        <name>Schule an der Schwalm</name>
        <location_1> Deutschland /
        <location_2> Nordrhein-Westfalen </location>
        <type> Schulart: F?rder/Sonderschule<type>
        <address>
           <entry>Adresse: 41366 Schwalmtal, Geneschen 32 </entry>
           <entry> </entry>
           <entry></entry>
           <entry></entry>
           <entry></entry>
           <entry>   Telefon: 02163-1244, Fax: 02163-921211 </entry>
           <entry> </entry>
           <entry> SchulWeb-Nummer: 10002655 </entry>
           <entry></entry>
           <entry>Email: leitung@schuleanderschwalm.de
        <Schulleitung> Martin König,
        <EMail>: leitung@schuleanderschwalm.de
        <sekretariat>: Helga Neubert,
        <e-mail-sekretariat> neubert@schuleanderschwalm.de
        <webmaster> Björn Weuster,
        <e-mail:webmaster>weuster@schuleanderschwalm.de </entry>
        </address>
        <description>
        Die Schule an der Schwalm ist für die sonderpädagogische Förderung in Schwalmtal, Niederkrüchten und Brüggen zuständig. Sie
        fördert in den Bereichen Lernen, Emotionale und Soziale Entwicklung, Sprache und teilweise auch Geistige Entwicklung.
        </description>
        </school> <school>
        <name>Schule an der Schwalm</name>
        <location>Deutschland / Nordrhein-Westfalen</location>
        <type>Schulart: F�rder/Sonderschule<type>
        <address>
        <entry>Adresse: 41366 Schwalmtal, Geneschen 32 </entry>
        <entry> </entry>
        <entry></entry>
        <entry></entry>
        <entry></entry>
        <entry> Telefon: 02163-1244, Fax: 02163-921211 </entry>
        <entry> </entry>
        <entry> SchulWeb-Nummer: 10002655 </entry>
        <entry></entry>
        <entry>Email: leitung@schuleanderschwalm.de Schulleitung: Martin K�nig, leitung@schuleanderschwalm.de Sekretariat: Helga Neubert, neubert@schuleanderschwalm.de Webmaster: Bj�rn Weuster, weuster@schuleanderschwalm.de </entry>
        </address>
        <description>
        Die Schule an der Schwalm ist f�r die sonderp�dagogische F�rderung in Schwalmtal, Niederkr�chten und Br�ggen zust�ndig. Sie f�rdert in den Bereichen Lernen, Emotionale und Soziale Entwicklung, Sprache und teilweise auch Geistige Entwicklung. </description>
        </school>
        
        Wie oben schon gesagt, das ist schon ein klasse Ergebnis.
        Ich werd jetzt mal sehen wie ich weiterkomme - meld mich wieder wenn ich hänge... Mit MySQL kenn ich mich etwas aus...
        Aber ggf. gibts noch Fragen zum Parsen...
        
        bis bald wieder! vielen Dank nochmals @ you !
        
        Lin
        Last edited: 2010-10-06 20:13:54 +0200 (CEST)
        
        +3 replies
        
        topeg
        
        2010-10-06 21:52
        
        User since
        2006-07-10
        2611 Artikel
        BenutzerIn
        
        Kannst bitte weniger konfus schreiben? An manchen Stellen muss ich echt raten was du eigentlich willst.
        
        Wenn ich zusammenfassen darf nachdem ich deinen Beitrag 15 Minuten studiert habe.
        
        - Du möchtest die Daten von der Webseite in eine Datenbank (MySQL) schreiben. Und hast schon etwas SQL Erfahrung.
        Dazu solltest du dir das DBI-Modul ansehen.
        
        - Nach folgenden Datensätzen suchst du:
        
        Name
        Bundesland
        Schulart
        Postleitzahl
        Ort
        Straße
        Telefon
        Telefax
        Schulweb-Nummer
        URL (Link aus die Webseite, von der die Daten stammen)
        Schulleitung
        E-Mail-Schulleitung
        Sekretariat
        E-Mail Sekretariat
        Webmaster
        E-Mail-Webmaster
        Beschreibung
        Mitglied seit
        
        Ergänzen würde ich hier noch:
        
        homepage (Link auf die Homepage der Schule)
        status (gibt es die schule noch? Wird die bald geschlossen, zieht sie um etc.)
        Schulzeitung (Link auf die Schulzeitung)
        
        - Du willst die Daten als CSV-Dateien abspeichern.
        Da schau dir mal Text::CSV-Modul an.
        
        - Du fragst wie ich das Script schreiben konnte ohne das script zu kennen.
        Es war nicht schwer alles zusammen in ein Script zu packen, alle Einzelteile waren ja schon vorhanden und die Logik klar.
        
        Aber dazu noch eine grundsätzliche Frage. Hast du den Webseitenbetreiber mal gefragt, ob er dir die Daten nicht direkt geben kann? Dann kann man sich das aufwändige Parsen sparen.
        
        Zum Token-Parser:
        "HTML::TokeParser" einige mögen diese Art der Parser, da sie schnell sind, aber ich bevorzuge Parser, die einen Objektbaum erstellen wie z.BHTML::TreeBuilder. Für mich sind sie leichter zu handhaben. Zwar ist das langsamer, aber sehe ich nicht kritisch, da man die Daten nur einmal aus den Dokumenten holen will.
        
        Das erstellen des Scriptes:
        Zum Testen würde ich eine kleine repräsentative Auswahl der zu parsenden Dateien machen und mit ihnen den Parser optimieren, bis du das gewünschte Ergebnis bekommst. Es ist nicht sinnvoll zu Anfang gleich alle 20.000 oder mehr Dateien zu bearbeiten.
        Mache viele Sicherheitskopien des Scriptes in jedem Stadium deiner Arbeit. Gerade als Anfänger verrennt man sich leicht in Sackgassen. Wenn man ältere Versionen eines Scriptes hat, kann man von da aus einen anderen Weg versuchen.
        Wenn man etwas neues oder Unbekanntes versucht, sollte man erst ein kleines simples Testscript schreiben. In so einem kleinen Script, in dem es nur ein potentielles Problem gibt, ist leicht zu überblicken. Damit kann man auch hier im Forum um Hilfe bitten, wenn man selber keine Lösung findet.
        
        lin
        
        2010-10-07 00:03
        
        User since
        2010-09-26
        35 Artikel
        BenutzerIn
        
        Hallo Topeg, guten Abend!
        
        schoen von dir zu hoeren! - bin etwas unsicher, ob ich in diesem Thread weiterschreiben soll. Einen neuen Thread will ich erst morgen aufmachen... Den zu tippen ist etwas aufwändig. Dann versuch ich am Donnerstagabend mal einen neuen Thread...
        
        Aber, um auf dein Frage zu kommen: Du hast natürlich in vielen Punkten Recht; in den praktisch-technischen - bei den PERL-Fragen in den logischen sonst auch. Hier ein Gedanken zu einem technischer Punkt
        
        Quote
        Ergänzen würde ich hier noch: homepage (Link auf die Homepage der Schule)
        
        Das mit der DB scheint mir das allekleinste Problem. Ich habe schon eine grobe (sehr gut verwendbare DB-Struktur, die im Grunde nur noch leicht abgewandelt werden muss - vgl. und siehe diesen Link hier zu einem guten Beispiel - - gut verwendbar
        
        Für die Arbeit im Moment bedeutet das, dass ich nur (!!!) die CSV-Strukur brauche. Es ist nicht mehr nötig im Moment.
        
        Wichtig sind vielmehr die Fragen wie viele Felder es werden sollen - siehe dazu mehr unten: Dann gibts noch eine interessante Frage: Die URL ist speziell: Die ist im Grunde verschlüsselt (siehe unten).
        
        Frage: Von Treebuilder hab ich auch schon gehoert. Auch davon dass TreeBuilder sehr leistungsfähig sein soll. Auch von HTML-TreeBuilder-LibXML hab ich schon gehoert. Hab den mal vor einigen Tagen von CPAN geholt. Also was mir jetz einfällt ich denn TreeBuilder mit demselben Code einbinden!? Ich muss ihn leicht abwahldeln - aber dann müsste er gehen
        - denk ich mal!
        
        Ein interessantes Detail ist verbunden mit der Webadresse, dem URL
        http://schulweb.de/de/schulsuche/einzelergebnis.ht...
        
        Bei diesem Detailergebnis ist der URL (siehe unten) in der Postleitzahl abgeleitet...:
        
        Quote
        Heidelberger Fremdsprachen-Institut, Akademie für Sprachen, Wirtschaft und Touristik
        Schulart: Berufsbildungseinrichtung
        Adresse: 69120 Heidelberg, Helmholtzstrasse 8
        Telefon: +49 (0)-6221 6442-0, Fax: +49 (0)-6221 6442-42
        SchulWeb-Nummer: 6912001
        Sekretariat: Frau Maureen Batt
        
        (Ende des Zitats)
        
        Interessant hierbei DER URL ist wie folgt zusammenbebaut: Aus: Schulweb.de/[Schulwebnummer] hier also 6912001 ->
        http://schulweb.de/6912001 - > http://www.hib-academy.de/
        
        Die Dekodierung der wahren URL - kann man ggf. einfach später machen - auch wenn die Daten schon in der DB drinne sind.Denn dann kann man die Sache eben - nach dem zusammenbaue ausführen - und kommt dann
        Von der SchulWeb-Nummer: 6912001 auf Schulweb.de/[Schulwebnummer] und zur: http://www.hib-academy.de/
        Frage: Was meinst du? - das muss man beim Parsen nicht machen. Das wär sehr aufwändig.
        
        Also - ich denk dass ich mal beim Parsen auf die wichtigsten Daten achte... 5 Zeilen hat jeder DAtensatz - nämlich diese:
        
        Quote
        Name: HIS - Heidelberg.
        Schulart:
        Adresse: wie etwa hier in einer Zeile: (69120 Heidelberg, Helmholtzstrasse 8) Siehe unten!!
        Telefon: +49 (0)-6221 6442-0, Fax: +49 (0)-6221 6442-42 - alles in einer Zeile drinne!
        SchulWeb-Nummer: 6912001 - siehe oben {muss ich extra dekodieren]
        Im SchulWeb seit: 16.10.2001
        
        Diese Zeilen haben alle!!
        
        Hier der voll Datensatz - verglichen mit einem zweiten - der noch mehr Informationen hat: Zeile 6 bis neu sind im zweiten - dem unteren Datensatz noch zusätzlich drinne: 6 bis einschließlich 8 sind interessant - und
        vor allem Zeile zehn Die Beschreibung (/description im HTML-Ansicht) sind interessant. Am Ende jeder Seite - das ist wichtig für den Parser - kommt - "im SchulWeb seit... - " Dies ist das Ende des Jobs für den Parser.
        Das stimmt für alle 10519 Ergebnisse:
        
        Ich denk dass ich die Zeilen 1 bis 5 ganz einfch immer drinne hab - die sind auch schon fertig im Programm berücksichtigt. Für die Zeilen 6 bis 9 hab ich mir überlegt muss ich das Script einfach nur etwas abändern:
        
        Code (perl): (dl )
        
        1 2 3
        
        # find the description $tag = $p->get_tag('p'); $school{'description'} = $p->get_text('/p');
        
        ich sollte da wohl noch ergänzen....
        
        Quote
        fm_projekte
        ta_left einzel_text (description) -wobei das schon dabei ist... das ist schon berücksichtigt
        logo_schulzeitung
        
        ta_left einzel_text (Mitglied im Schulweb seit)....
        
        Email:
        Schulleitung: Peter Born
        Webmaster:
        mailto: stehr@igh-hd.de
        <div class="fm_projekte"
        
        Hier der Vergleich zweier ganz konkreter Datensätze!
        
        Datensatz eins
        1 Name: H.I.S. Heidelberg International School, 69123 Heidelberg
        2 Schulart: Berufsbildungseinrichtung
        3 Adresse: 69120 Heidelberg, Helmholtzstrasse 8
        4 Telefon: +49 (0)-6221 6442-0, Fax: +49 (0)-6221 6442-42
        5 SchulWeb-Nummer: 6912001
        6 Sekretariat: Frau Maureen Batt
        
        Mitwirkung an Projekten:
        * SAN-Einstiegsprojekt
        * ODS
        Im SchulWeb seit: 16.10.2001
        
        Datensatz zwei
        1 Name: Internationale Gesamtschule Heidelberg
        2 Schulart: Gesamtschule
        3 Adresse: 69126 Heidelberg, Baden-Badener Str. 14
        4 Telefon: 0 62 21 / 310-0, Fax: 0 62 21 / 310-210
        5 SchulWeb-Nummer: 6912601
        6 Email: sekretariat@igh-hd.de
        7 Schulleitung: OSTD Peter Born
        8 Webmaster: Günter Stehr
        
        Mitwirkung an Projekten:
        * ODS
        * SAN-Modellprojekt
        * UNESCO
        * SAN-Einstiegsprojekt
        
        Description:
        Die Internationale Gesamtschule Heidelberg (IGH) lebt von dem Gedanken der Internationalität und der Friedenserziehung. Die pädagogische Konzeption beinhaltet weiter ein verstärktes Fremdsprachenangebot, ein naturwissenschaftliches Profil und die feste Verankerung des Umweltgedankens in der Schule. Die IGH wird ab Sekundarstufe I als Ganztagesschule an vier Tagen der Woche betrieben. Pflichtunterricht und Ganztagesangebote finden in der Zeit von 7:45 Uhr bis 16:00 Uhr statt. In der Mittagspause werden durch die schuleigene Küche drei Menüs angeboten. Zur IGH gehören - außer den Vorschulkindern - 1800 Schülerinnen und Schüler in verschiedenen Stufen. Sie werden von 160 Lehrerinnen und Lehrer aller Schularten gemeinsam unterrichtet.
        
        Im SchulWeb seit: 16.10.2001
        
        Im Blick auf die Struktur der Datensätze sieht man : Im Grunde ist jeder Datensatz eingerahmt von:
        
        a. Name der Schule
        b. Im SchulWeb seit...
        
        Diese beiden Einträge sind immer (!!!) dabei! Es gibt immer 5 Einträge.
        
        Diese fünf Datensätze gibt es in wirklich jedem Datensatz - ich muss das beim Parsen nur berücksichtigen. Es kommt also beim Parsen darauf an, auch die Felder 6 bis 10 erstmal einfach auch mit anzulegen auf der DB - dann kann m.E. nicht so viel passieren.
        
        Für den zu parsenden Code muss ich dann da noch was ergänzen:
        
        Code (perl): (dl )
        
        1 2 3
        
        # find the description $tag = $p->get_tag('p'); $school{'description'} = $p->get_text('/p');
        
        Hmm - im Moment denke ich dass ich da wohl noch ergänzen muss:....
        
        Quote
        fm_projekte
        ta_left einzel_text (description) -wobei das schon dabei ist... das ist schon berücksichtigt
        logo_schulzeitung
        
        Werde mich morgen mal dranmachen. Melde mich aber auf jeden Fall wieder...
        
        Euer Lin
        
        PS _ werde mich morgen auf jeden Fall hier wieder melden!
        
        und jetzt fall ich erstmal ins Bett ;-)
        
        BTW - wegen des CSV-Separators das hier ist super: Text::CSV::Separator den werde ich auf jeden Fall anwenden!
        
        http://search.cpan.org/~enell/Text-CSV-Separator-0...
        
        use Text::CSV::Separator qw(get_separator);
        
        Code (perl): (dl )
        
        1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28
        
        my @char_list = get_separator( path => $csv_path, exclude => $array1_ref, # optional include => $array2_ref, # optional echo => 1, # optional ); my $separator; if (@char_list) { if (@char_list == 1) { # successful detection $separator = $char_list[0]; } else { # several candidates passed the tests # Some code here } else { # no candidate passed the tests # Some code here } # "I'm Feeling Lucky" alternative interface # Don't forget to include the 'lucky' parameter my $separator = get_separator( path => $csv_path, lucky => 1, exclude => $array1_ref, # optional include => $array2_ref, # optional echo => 1, # optional );
        
        DESCRIPTION
        
        Quote
        This module provides a fast detection of the field separator character (also called field delimiter) of a CSV file, or more generally, of a character separated text file (also called delimited text file), and returns it ready to use in a CSV parser (e.g., Text::CSV_XS, Tie::CSV_File, or Text::CSV::Simple). This may be useful to the vulnerable -and often ignored- population of programmers who need to process automatically CSV files from different sources. The default set of candidates contains the following characters: ',' ';' ':' '|' '\t'
        
        Last edited: 2010-10-07 08:26:44 +0200 (CEST)
        
        lin
        
        2010-10-13 18:22
        
        User since
        2010-09-26
        35 Artikel
        BenutzerIn
        
        Hi
        ich sehe mir heute Abend mal das CPAN:DBI-Modul an. Eine direkte Speicherung der Daten wäre eine Supersache.
        
        Denke mal dass ich dann eines nicht brauche. Eine CSV-Ausgabe!
        
        Bis später
        lin
        
        btw. Ein neuer Thread ist noetig...;-)

View all threads created 2010-10-03 13:29.