XML::LibXML - "Malformed UTF-8 Character (fatal" vermeiden (gelöst) (Allgemeines zu Perl)

[thread]16364[/thread]

XML::LibXML - "Malformed UTF-8 Character (fatal" vermeiden [gelöst]

Leser: 20

Articles: hide open all | hide show old branches

+12 replies
Bob

2011-05-28 13:48
User since
2011-05-21
6 Artikel
BenutzerIn
Hallo allerseits,

ich möchte – inzwischen mit LibXML (ist deutlich schneller als XPath) – XML-Dokumente parsen, auf deren Inhalt ich keinen Einfluss habe. Dafür habe ich eine Pipe. Nun scheint es leider vereinzelt vorzukommen, dass innerhalb eines Dokuments UTF-8 und ISO-Latin-1 vermischt sind. LibXML quittiert das in wenig charmanter Art und Weise mit "Malformed UTF-8 character (fatal) at ..." und tschüs. Von dem Vorhaben, die defekten Zeichensätze zu reparieren, habe ich mich inzwischen verabschiedet. Was in den Foren auch immer an Lösungsansätzen genannt wurde, ich habe es nicht geschafft, das zu implementieren. Meine letze Hoffnung wäre nun, Perl in solchen Fällen wenigstens vom Sterben abzuhalten. Gibt es da irgendeine Möglichkeit?
Code (perl): (dl )

1 2 3 4 5 6 7 8 9 10 11 12 13

#!/usr/bin/perl -w use strict; use warnings; use Encode; use encoding "utf8"; use XML::LibXML; foreach(@files) { my $parser = XML::LibXML->new({recover => 2, suppress_errors => 1, suppress_warnings => 1, encoding => "utf8"}); my $tree = $parser->load_html(location => $_); ... }
Das ginge wohl in die richtige Richtung, aber wie sollte ich das hier implementieren?

Ratlos :-(

Bob

modedit Editiert von GwenDragon: Titel geändert
Last edited: 2011-05-28 14:32:38 +0200 (CEST)
- +2 replies
- Bob
  
  2011-05-28 14:27
  
  User since
  2011-05-21
  6 Artikel
  BenutzerIn
  
  Argh, wer die Suche nicht aufgibt ... eval, natürlich.
  - GwenDragon
    
    2011-05-28 14:52
    
    User since
    2005-01-17
    14849 Artikel
    Admin1
    
    Wenn das Problem gelöst, dann setze den Thread bitte auf gelöst (grüner Haken) ;)
    die Drachin Gwen
    
    Meine Perl-Artikel · perldev – verschiedene Perl-Versionen unter Windows starten
- GwenDragon
  
  2011-05-28 14:34
  
  User since
  2005-01-17
  14849 Artikel
  Admin1
  
  LDNP (Lies das nützliche POD) ;)
  
  Quote
  (...)These errors can be caught by using eval blocks.(...)
  
  http://search.cpan.org/perldoc?XML::LibXML::Parser...
  die Drachin Gwen
  
  Meine Perl-Artikel · perldev – verschiedene Perl-Versionen unter Windows starten
- +8 replies
- rosti
  
  2011-05-30 14:29
  User since
  2011-03-19
  3617 Artikel
  BenutzerIn
  Nachgereicht:
  
  Code (perl): (dl )
  
  1 2 3 4 5 6 7 8 9 10 11 12 13
  
  # Testet, ob ein Text UTF-8 kodiert ist sub is_utf8{ my $text = shift; no warnings; use bytes; # es sind bytes zu verglichen # text in latin umwandeln, iso-8859-1 my $iso = pack('C*', unpack('U0U*', $text)); # diesen text wieder in utf-8 kodieren my $utf = pack('U0U*', unpack('C*', $iso)); # wenn beide Bytes-Ketten gleich sind, ist $text utf-8-kodiert return ($utf eq $text) ? 1 : 0; }
  
  Getestet mit perl v5.6.1 auf Win32 XP. Könnte das mal einer von Euch auf Linux & Co testen?
  
  Edit: Obenstehender Code funktioniert nur dann, wenn zwischen ISO und UTF-8 umgewandelt werden kann, was bei iso-8859 der Fall ist. Insofern ist der Code schlecht, weil der nicht alle Fälle abdeckt.
  
  Eine andere und verbesserte Variante ermittelt mit der U-Schablone eine Liste der Codepoints, diese Codepoints werden dann wieder zu Bytes gemacht und geprüft, ob dasselbe rauskommt, dann liegt eine UTF-8- oder eine ASCII-Kodierung vor, nicht jedoch eine ISO-Kodierung.
  Last edited: 2011-05-31 16:41:37 +0200 (CEST)
  http://blog.rolfrost.de/
  
  The art of steam.
  - +6 replies
  - pktm
    
    2011-05-30 14:57
    User since
    2003-08-07
    2921 Artikel
    BenutzerIn
    
    Ich bekomme hier das gleich Ergebnis mit latin1-kodiertem Text und utf-8-kodiertem Text:
    
    Quote
    test with latin1: 1
    test with utf-8: 1
    
    This is perl, v5.10.0 built for darwin-thread-multi-2level.
    
    Mache ich eventuell etwas falsch?
    
    Code: (dl )
    
    1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33
    
    #!perl use strict; use warnings; use FileHandle; print "test with latin1: " . test('test-iso.txt', 'latin1') . "\n"; print "test with utf-8: " . test('test-utf8.txt', 'utf-8') . "\n"; sub test { my $file = shift; my $encoding = shift; my $fh = FileHandle->new($file, "<:encoding(".$encoding.")") or die('Cannot open file: ' . $!); my $content = join"", ($fh->getlines()); my $is_utf = is_utf8($content); return $is_utf; } # /test # Testet, ob ein Text UTF-8 kodiert ist sub is_utf8{ my $text = shift; no warnings; use bytes; # es sind bytes zu verglichen # text in latin umwandeln, iso-8859-1 my $iso = pack('C*', unpack('U0U*', $text)); # diesen text wieder in utf-8 kodieren my $utf = pack('U0U*', unpack('C*', $iso)); # wenn beide Bytes-Ketten gleich sind, ist $text utf-8-kodiert return ($utf eq $text) ? 1 : 0; } # /is_utf8
    
    In der Datei steht sowas hier:
    
    Quote
    test-iso.txt
    
    Diese Datei ist latin1-Kodiert.
    
    http://www.intergastro-service.de (mein erstes CMS :) )
    - +5 replies
    - payx
      
      2011-05-30 15:05
      
      User since
      2006-05-04
      564 Artikel
      BenutzerIn
      
      Hallo pktm,
      
      Es kann nicht funktionieren mit Dateien, die nur ASCII-Zeichen (Code Points <= 127) enthalten, denn die sind in den gebräuchlichen 8-Bit Codes und in UTF-8 identisch kodiert.
      
      Das heißt aber umgekehrt, dass die Unterscheidung in diesem Fall auch nicht benötigt wird, d.h. rostis Code ist ggf. trotzdem so brauchbar.
      
      Einfach mal mit einem Text ausprobieren, der z.B. Umlaute enthält.
      
      Grüße
      payx
      
      //EDIT: PS: rostis Code ist wohl eher so nicht brauchbar, siehe meine Antwort an ihn.
      Last edited: 2011-05-30 15:20:12 +0200 (CEST)
      - +4 replies
      - pktm
        
        2011-05-30 15:19
        
        User since
        2003-08-07
        2921 Artikel
        BenutzerIn
        
        Nun gut, habe in beiden Dateien ein äöüß reingeschrieben. Jetzt gibt es zwei mal die 0.
        http://www.intergastro-service.de (mein erstes CMS :) )
        
        +3 replies
        
        rosti
        
        2011-05-30 15:56
        
        User since
        2011-03-19
        3617 Artikel
        BenutzerIn
        
        Bitte teste mal hier: http://rolfrost.de/apps/utf8test
        
        Meine Tests sind OK und erwartungsgemäß.
        http://blog.rolfrost.de/
        
        The art of steam.
        
        +2 replies
        
        payx
        
        2011-05-30 17:10
        
        User since
        2006-05-04
        564 Artikel
        BenutzerIn
        
        Hallo rosti,
        
        das funktioniert auch nicht korrekt (vgl. mein anderes Posting).
        
        Eine 100%ige Lösung kann es prinzipbedingt nicht geben, wie schon der Name von Encode::Guess andeutet.
        
        HTH
        Grüße
        payx
        
        rosti
        
        2011-05-30 17:45
        
        User since
        2011-03-19
        3617 Artikel
        BenutzerIn
        
        hi danke!!!
        
        Zumindest kann mein Script nun auch zwischen 'ASCII 7 Bit', 'ISO 8 Bit' und 'UTF-8' unterscheiden.
        
        --Rosti
        http://blog.rolfrost.de/
        
        The art of steam.
  - payx
    
    2011-05-30 15:19
    
    User since
    2006-05-04
    564 Artikel
    BenutzerIn
    
    Hallo rosti,
    
    ich habe das gerade mit Windows getestet. Das Verhalten ist m.E. nicht plausibel.
    
    1. pktms Test sollte zwei Mal 0 liefern, nicht zwei Mal 1, denn der Text ist ja in beiden Fällen nicht UTF8-kodiert. (Will sagen: Enthält keine einzige UTF-8-spezifische Bytesequenz.)
    
    2. Es funktionert korrekt mit Text, der Umlaute enthält.
    
    3. Es funktioniert (natürlich) nicht mit UTF-8-kodiertem Text, der Zeichen aus anderen Zeichensätzen als iso-8859-1 enthält, denn der kann ja nicht in verlustfrei vorübergehend in iso-8859-1 und zurück konvertiert werden.
    
    Punkt 3 ist m.E. der Killer. Der Witz bei UTF-8 ist ja gerade, dass Texte prinzipiell beliebig gemischte Zeichensätze enthalten können.
    
    Grüße
    payx

View all threads created 2011-05-28 13:48.