Thread I/O Operations: Pfade übertragen auf einen HTML-Parser (17 answers)
Opened by lin at 2010-10-03 13:29

lin
 2010-10-06 19:58
#141756 #141756
User since
2010-09-26
35 Artikel
BenutzerIn
[default_avatar]
ganz vielen Dank Topeg - ganz vielen Dank auch an Dich pq für die hilfreiche Moderation.

Bin ja Anfänger - und als solcher etwas unbeholfen... Das Forum ist aber klasse! Ein toller Ort zum Austausch u. zum Lernen. Eure Erklärungen sind hilfreich. Das lauffähig gemachte Testscript hab ich jetzt mal noch genauer angesehen - und mir klarzumachen versucht, warum es nicht gelaufen ist. Besonders hilfreich finde ich dein Posting von gestern - das hat nochmals viel viel geholfen. Also, man lernt am besten Programmieren, wenn man direkt reinspringt ins kalte Wasser - und dann am Besten ein paar hilfreiche Leute hat - wie Euch hier!!


Der Thread hat seinen Zweck bereits mehr als erfüllt: Für alles Weitere werde ich einen neuen Thread aufmachen. BTW: Dein Ansatz Topec ist klasse. Das hat viel viel gebracht. Die Ergebnisse sind sehr überzeugend. Siehe ganz unten! Wenn man mit Perl anfängt und nicht der totale Crack ist, ist es hilfreich ein Forum wie dieses zu haben.

Wei Du Topeg danach gefragt hast will ich dennoch kurz erklären woran ich arbeite: Bin oben deine Zeilen durchgegangen. Das Testscript läuft - wie gesagt - schon mal sehr gut.

Grundsätzlich will ich den geparsten Datensatz für eine Mysql-anschlussfähigkeit machen und die einzelnen Werte als CSV ausgeben - also noch besser aufteilen. Das Ganze ist aber schon sehr sehr gut. Da wurde ein 13 MEG großes Datei erzeugt. Das wäre besser, wenn es mehrere kleine Files erzeugt werden. Also - nach dem Parsen von ca. 3000
Einzelergebnissen sollte jeweils ein neues File erzeugt werden. Das wäre super. Denn dann werden die Dateien handhabbarer!

Frage: Topeg hast du den Umbau so (abstrakt hingekriegt ohne zu wissen worum es geht!? Das ist ja fantastisch. Bin begeistert. Denn die Resultate sind klasse.

Ganz kurz Worum es geht: diesen Thread hier - das laden dauert aber etwas lange..[sorry].. Die Seite gibt einen Überblick aus auf dt. Schulen: Treffer 1 - 10519 von 10519

    1. Stiftung Louisenlund, 24357 Güby
    2. Bayerische Landesanstalt für Weinbau und Gartenbau, 97205 Veitshöchheim
    3. Katharina-Fischer-Schule Sonderpädagogisches Förderzentrum Erding, 85435 Erding
    4. 02 Grundschule Reinickendorf (Am Schäfersee), 13407 Berlin
    und so weiter
und so weiter...


Nebenbei bemerkt: Warum u. wozu ich an diesem Thema arbeite? Als Pädagoge bin ich an einem Projekt, das diese Daten auf neueren Stand bringen will. Vieles ist ca. 12 bis 14 Jahre alt.
Hier also ein ein allgemeiner Datensatz: hier ein Einzelergebnis

Abstrakt gesehen: So wie hier unten ist er gewollt - um ein MySQL-DB-Aufbau herzustellen: werde also auf CSV jetzt achten und daran arbeiten!


Name:
Bundesland (Deutschland / Bundesland ->trennen in zwei Zeilen [siehe unten]!!)
Schulart
Adresse_0: (Postleitzahl)
Adresse_1: (Ort)
Adresse_2: (Straße)
Telefon:
Telefax:
Schulweb-Nummer
URL: Ergebnis aus Schulweb-Nummer und einer Ausführung des URL-Konstrukts
Schulleitung:
E-Mail-Schulleitung:
Sekretariat:
E-Mail Sekretariat:
Webmaster:
E-Mail-Webmaster:
Beschreibung
ggf. Mitglied seit:

Die untersten Felder - also die vorletzen 7 Felder von Schulleitung bis Beschreibung sind nicht immer in einem Einzelergebnis. Diese will ich nur berücksichtigen.... Also wenn hier im Einzelergebnis Daten kommen, dann sollen diese Felder eben auch berücksichtig werden... Die werden in der DB also berücksichtigt u. auch "erzeugt."

Topeg - das Ergebnis das beim Test rausgekommen ist ist schon echt nah dran!! Ich werd jetzt als Erstes mal daran arbeiten, dass die Werte durch Kommas getrennt werden - /(CSV) für die DB-Anschulussfähigkeit.

Das hier ist das Ergebnis aus dem Testscript - Klasse!!


<school>
<name>Schule an der Schwalm</name>
<location_1> Deutschland /
<location_2> Nordrhein-Westfalen </location>
<type> Schulart:  F?rder/Sonderschule<type>
<address>
   <entry>Adresse: 41366 Schwalmtal, Geneschen 32 </entry>
   <entry> </entry>
   <entry></entry>
   <entry></entry>
   <entry></entry>
   <entry>   Telefon: 02163-1244, Fax: 02163-921211 </entry>
   <entry> </entry>
   <entry>  SchulWeb-Nummer:  10002655 </entry>
   <entry></entry>
   <entry>Email:  leitung@schuleanderschwalm.de
<Schulleitung> Martin König,
<EMail>: leitung@schuleanderschwalm.de
<sekretariat>: Helga Neubert,
<e-mail-sekretariat> neubert@schuleanderschwalm.de
<webmaster>  Björn Weuster,
<e-mail:webmaster>weuster@schuleanderschwalm.de </entry>
</address>
<description>
Die Schule an der Schwalm ist für die sonderpädagogische Förderung in Schwalmtal, Niederkrüchten und Brüggen zuständig. Sie
fördert in den Bereichen Lernen, Emotionale und Soziale Entwicklung, Sprache und teilweise auch Geistige Entwicklung.
</description>
  </school> <school>
<name>Schule an der Schwalm</name>
<location>Deutschland / Nordrhein-Westfalen</location>
<type>Schulart: F�rder/Sonderschule<type>
<address>
<entry>Adresse: 41366 Schwalmtal, Geneschen 32 </entry>
<entry> </entry>
<entry></entry>
<entry></entry>
<entry></entry>
<entry> Telefon: 02163-1244, Fax: 02163-921211 </entry>
<entry> </entry>
<entry> SchulWeb-Nummer: 10002655 </entry>
<entry></entry>
<entry>Email: leitung@schuleanderschwalm.de Schulleitung: Martin K�nig, leitung@schuleanderschwalm.de Sekretariat: Helga Neubert, neubert@schuleanderschwalm.de Webmaster: Bj�rn Weuster, weuster@schuleanderschwalm.de </entry>
</address>
<description>
Die Schule an der Schwalm ist f�r die sonderp�dagogische F�rderung in Schwalmtal, Niederkr�chten und Br�ggen zust�ndig. Sie f�rdert in den Bereichen Lernen, Emotionale und Soziale Entwicklung, Sprache und teilweise auch Geistige Entwicklung. </description>
</school>


Wie oben schon gesagt, das ist schon ein klasse Ergebnis.
Ich werd jetzt mal sehen wie ich weiterkomme - meld mich wieder wenn ich hänge... Mit MySQL kenn ich mich etwas aus...
Aber ggf. gibts noch Fragen zum Parsen...


bis bald wieder! vielen Dank nochmals @ you !

Lin
Last edited: 2010-10-06 20:13:54 +0200 (CEST)

View full thread I/O Operations: Pfade übertragen auf einen HTML-Parser