HTML-Seite parsen (Allgemeines zu Perl) - Perl-Community.de

Start · Board · Anwendungen/Programme/Skripte in Perl · Allgemeines zu Perl

2025-12-15 08:42:03
Europe/Berlin
Einloggen (Registrieren)
- Einstellungen
- Statistics
Jemand zu Hause?
0 Benutzer online
11 Gäste

[thread]14130[/thread]

submit to reddit

HTML-Seite parsen

Leser: 26

Articles: hide open all | hide show old branches

+15 replies
pktm

2009-10-12 12:21

User since
2003-08-07
2921 Artikel
BenutzerIn

Hallo!

Ich habe hier HTML-Seiten, aus denen ich gerne Listen extrahieren würde.
Wie mache ich das am besten?
Ich brauche einfach jedes <li> in der Webseite.

Mein Ansatz wäre, da mit einer RegEx drauf zu schießen.

Grüße, pktm
http://www.intergastro-service.de (mein erstes CMS :) )
- +3 replies
- pq
  
  2009-10-12 12:24
  
  User since
  2003-08-04
  12209 Artikel
  Admin1
  
  html parsen mit regexes? lieber nicht.
  
  FaqBenutzungModuleHTMLParser
  Always code as if the guy who ends up maintaining your code will be a violent psychopath who knows where you live. -- Damian Conway in "Perl Best Practices"
  lesen: Wie frage ich & perlintro brian's Leitfaden für jedes Perl-Problem
  - +2 replies
  - pktm
    
    2009-10-12 13:14
    
    User since
    2003-08-07
    2921 Artikel
    BenutzerIn
    
    Das sieht so nach dem aus, was ich suche.
    
    Wie aber gelange ich an alle Elemente, die in einem li drin sind?
    Ich habe das noch nicht so ganz verstanden.
    
    Ich kann zwar den Handler definieren, der ein öffnendes li-Tag abfängt, aber irgendwie muss ich ja auch an das kommen, was da drin ist - speziell an die darin verschachtelten Tags. Da steht bei mir nämlich nciht einfach ein Text.
    http://www.intergastro-service.de (mein erstes CMS :) )
    - pq
      
      2009-10-12 13:20
      
      User since
      2003-08-04
      12209 Artikel
      Admin1
      
      vielleicht ist HTML::TreeBuilder für deinen fall geeigneter.
      Always code as if the guy who ends up maintaining your code will be a violent psychopath who knows where you live. -- Damian Conway in "Perl Best Practices"
      lesen: Wie frage ich & perlintro brian's Leitfaden für jedes Perl-Problem
- +2 replies
- havi
  
  2009-10-12 12:24
  
  User since
  2003-08-04
  2036 Artikel
  BenutzerIn
  
  Guckst du
  Perl-Zeitung - http://perl-zeitung.at/
  Perl-Blog - http://usr-bin-perl.blogspot.com/
  - pq
    
    2009-10-12 12:32
    
    User since
    2003-08-04
    12209 Artikel
    Admin1
    
    es ging weniger um das herunterladen als um das parsen...
    Always code as if the guy who ends up maintaining your code will be a violent psychopath who knows where you live. -- Damian Conway in "Perl Best Practices"
    lesen: Wie frage ich & perlintro brian's Leitfaden für jedes Perl-Problem
- +2 replies
- murphy
  
  2009-10-12 14:03
  
  User since
  2004-07-19
  1776 Artikel
  HausmeisterIn
  
  2009-10-12T10:21:18 pktm
  [...]
  Ich brauche einfach jedes <li> in der Webseite.
  [...]
  
  Das Problem klingt wie gemacht für eine XPath-Abfrage: //li wäre da der richtige Ausdruck um alle <li>-Tags in beliebiger Verschachtelungstiefe zu finden.
  
  Allerdings verwende ich Perl kaum zum Verarbeiten von XML-Daten und weiß daher nicht, ob es ein gescheites XPath-Modul gibt, das man auch irgendwie mit einem HTML-Parser kombinieren kann...
  When C++ is your hammer, every problem looks like your thumb.
  - pq
    
    2009-10-12 14:14
    
    User since
    2003-08-04
    12209 Artikel
    Admin1
    
    HTML::TreeBuilder::XPath =)
    Always code as if the guy who ends up maintaining your code will be a violent psychopath who knows where you live. -- Damian Conway in "Perl Best Practices"
    lesen: Wie frage ich & perlintro brian's Leitfaden für jedes Perl-Problem
- +5 replies
- topeg
  
  2009-10-12 14:28
  
  User since
  2006-07-10
  2611 Artikel
  BenutzerIn
  
  Aus Vorsicht würde ich zu Modulen wie
  HTML::TreeBuilder,
  HTML::Parse,
  HTML::Parser oder
  HTML::TagParser usw
  raten
  
  Wenn es sich um eine Seite handelt, die Immer gleich aufgebaut ist, und du sicher bist, dass sich das "Format" nicht ändert, und das herauslesen der Daten schnell gehen muss oder du einfache Datentypen nur einmalig lesen willst, dann könnte man darüber nachdenke einen passenden Regulären Ausdruck zu schreiben.
  
  Anders als XML ist HTML generisch kaum zu parsen, der Parser muss alle Tags kennen und wissen was sie erlauben und was nicht. Zudem sind gerade in HTML-Seiten Fehler nicht selten, sodass der Parser robust sein muss und raten was gemeint sein könnte. Das kann man mit einer RegExp kaum leisten.
  - +2 replies
  - sid burn
    
    2009-10-12 15:10
    
    User since
    2006-03-29
    1520 Artikel
    BenutzerIn
    
    Quote
    Wenn es sich um eine Seite handelt, die Immer gleich aufgebaut ist, und du sicher bist, dass sich das "Format" nicht ändert, und das herauslesen der Daten schnell gehen muss oder du einfache Datentypen nur einmalig lesen willst, dann könnte man darüber nachdenke einen passenden Regulären Ausdruck zu schreiben.
    
    Selbst dann würde ich keine Regex schreibe da es schnell zu komplex werden kann, und die Module da einiges an Arbeit sparen können. Zum anderen woher soll man Wissen das das "Format" imemr gleich bleibt? Selbst wenn man die Seite selber geschrieben hat kann man nicht wissen ob man sie in der Zukunft doch ändert.
    
    Quote
    Anders als XML ist HTML generisch kaum zu parsen, der Parser muss alle Tags kennen und wissen was sie erlauben und was nicht.
    
    Jaein.
    Nur zum Auslesen muss ein Parser nicht schauen ob das Dokument auch Valide ist. Sprich ob Tags korrekt verschachtelt sind wie erlaubt etc. Sowas kann man zum auslesen auch ignorieren da man ja nicht die Validität überprüfen will.
    
    Ansonsten ist es nicht so das man bei XML diesen prozess nicht hat. Bei XMLs gibt es ebenso DTDs die ein Regelsatz für XML beschreibt. Bei XML Dokumenten kann man von "Wohlgeformt" sprechen wenn die Syntax korrekt ist. Das bedeutet aber nicht das XML deswegen automatisch Valide ist. XHTML z.B. baut auf XML auf und begrenzt ebenso wie HTML Tags und Attribute die bestimmte Tags haben dürfen etc.
    
    Wenn man Daten lediglich auslesen möchte dann brauch man nur "Wohlgeformte" Dokumente, im seltensten Fall wird man gleich prüfen ob das Dokument überhaupt Valide ist.
    Nicht mehr aktiv. Bei Kontakt: ICQ: 404181669 E-Mail: perl@david-raab.de
    - topeg
      
      2009-10-12 15:50
      
      User since
      2006-07-10
      2611 Artikel
      BenutzerIn
      
      Quote
      Nur zum Auslesen muss ein Parser nicht schauen ob das Dokument auch Valide ist. Sprich ob Tags korrekt verschachtelt sind wie erlaubt etc. Sowas kann man zum auslesen auch ignorieren da man ja nicht die Validität überprüfen will.
      
      Es geht nicht um das validieren. HTML hat keine eindeutige Kennzeichnung von Elementpaaren und Einzelelementen. Bei XML-Tags kann man anhand der Struktur erkennen ob es Paare sind oder ob sie einzeln stehen.
      Bei HTML-Tags kann das der Parser nur wissen, wenn man weiß was für Tags es sind. Wenn man auf ein "li"-Tag stößt so kann er, ohne zu wissen was "li" ist, nicht entscheiden, ob die Nachfolgenden Daten zum "li" gehört und wo der Block endet, der zu "li" gehören könnte.
      
      Sicher will man "einfach" Tags vom Text trennen, braucht man über die Art der Tags nichts zu wissen, will man aber die Daten strukturiert auslesen, so muss der Parser wenigstens rudimentär wissen, welche Tags Elementpaare und welche Einzelelemente sind.
      Um nochmal zu "li" zurück zu kommen. Der zu "li" gehörenden Block endet am schließenden "/li" oder beim nächsten "li" oder abschließenden "/ul", "/dl" oder "/ol" sofern vorher nicht ein "ul", "dl" oder "ol" kam. Woher soll der Parser das wissen, wenn er nicht den Tag "li" als solches erkennt. Taucht ein "img" Tag auf, so ist nicht entscheidbar, ohne zu wissen um was es sich handelt, ob die nachfolgenden Daten dazu gehören oder nicht.
  - +2 replies
  - sitescriptor
    
    2009-10-12 15:44
    
    User since
    2009-08-09
    105 Artikel
    BenutzerIn
    
    2009-10-12T12:28:35 topeg
    Aus Vorsicht würde ich zu Modulen wie
    ... oder
    HTML::TagParser usw
    raten
    
    Interessehalber:
    
    Sehe ich das richtig, dass sich mit HTML::TagParser nicht der Inhalt eines HTML-Elementes ändern lässt? Quasi READonly?
    - topeg
      
      2009-10-12 15:56
      
      User since
      2006-07-10
      2611 Artikel
      BenutzerIn
      
      Um es kurz zu machen: ja
      TagParser Parst das Dokument auf Anforderung. Erst wenn ein Tag angefordert wird wir das Element auch geparsed. Der Inhalt des rohen HTML-Dokumentes lässt sich damit nicht ändern.
- +2 replies
- renee
  
  2009-10-12 14:33
  User since
  2003-08-04
  14371 Artikel
  ModeratorIn
  Wie wäre es mit
  
  Code (perl): (dl )
  
  1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
  
  #!/usr/bin/perl use strict; use warnings; use Web::Scraper; use LWP::Simple; my $content = get( 'http://perl-magazin.de/' ); my $scraper = scraper { process 'li', 'items[]' => 'TEXT'; result 'items'; }; my $result = $scraper->scrape( $content ); print $_,"\n" for @$result;
  
  OTRS-Erweiterungen (http://feature-addons.de/)
  Frankfurt Perlmongers (http://frankfurt.pm/)
  --
  
  Unterlagen OTRS-Workshop 2012: http://otrs.perl-services.de/workshop.html
  Perl-Entwicklung: http://perl-services.de/
  - pktm
    
    2009-10-12 16:48
    
    User since
    2003-08-07
    2921 Artikel
    BenutzerIn
    
    Das sieht interessant aus, muss ich mal testen.
    Ich habe es jetzt allerdings schon mit HTML::TreeBuilder implementiert.
    http://www.intergastro-service.de (mein erstes CMS :) )

View all threads created 2009-10-12 12:21.