Schrift
[thread]7336[/thread]

Probleme bei Decodierung des XML-Zeichenformats: iso-8859-1 nach ???



<< >> 2 Einträge, 1 Seite
greenhornet
 2005-10-12 15:57
#58692 #58692
User since
2005-10-08
5 Artikel
BenutzerIn
[default_avatar]
Hi,

ich schreibe ein Perl-Modul, welches XML-Dateien verarbeitet und anschließend in ein Formular in TK einträgt.

Das Problem ist folgendes:
In dem XML stehen seltsame Dinge wie:
Code: (dl )
{\rtf1\ansi\ansicpg1252\deff0\deflang1031{\fonttbl{\f0\fnil\fcharset0 Tahoma;}}\viewkind4\uc1\pard\f0\fs17 Richtige Antwort\par}


Da das XML am Anfang als "ISO-8859-1" deklariert ist, vermute ich, dass das was mit der Codierung zu tun hat...
Der Teil den ich benötige ist hier: "Richtige Antwort" und evtl. noch Informationen ob der Text Fett, Kursiv,... ist.

Klar wäre es mit Regular Expressions kein Problem die Teile vorn und hinten abzuschneiden und evtl vorkommen \b (fett) herauszufiltern. Ich denke aber, dass es da wohl einen "saubereren" Weg geben müsste.

Für eure Hilfe wär ich euch dankbar!\n\n

<!--EDIT|greenhornet|1129118325-->
Strat
 2005-10-12 18:31
#58693 #58693
User since
2003-08-04
5246 Artikel
ModeratorIn
[Homepage] [default_avatar]
sieht irgendwie nach RTF aus... kann es sein, dass das XML fehlerhaft generiert wurde, oder mit winword im RTF-Format gespeichert wurde?
perl -le "s::*erlco'unaty.'.dk':e,y;*kn:ai;penmic;;print"
http://www.fabiani.net/
<< >> 2 Einträge, 1 Seite



View all threads created 2005-10-12 15:57.