Gast+2008-01-16 13:28:13--Danke für die Antworten. Sorry, dass es bei mir so lang gedauert hat, ich musste erst mal checken, was ich alles geschnallt habe ;)
Also, da es sich um tschechische Zeichen handelt, z.B. Ř, kann es sich nur um Latin2 handeln, d.h. windows 1250 oder Iso-8859-2? Soweit ich das verstanden habe, gibt es nicht mehr?
Theoretisch gibt es weitere, irgendwelche alten codepages, evtl. mac-encodings usw. win-1250 und iso-8859-2 sind weitgehend kompatibel. Wenn du nur diese beiden hast und sonst nur noch utf-8, dann kannst du auch
Encode::Guess verwenden.
QuoteDeshalb hilft mir das script noch nicht so viel, weil ich es adaptieren müsste und nicht ganz verstehe.
Ich müsste die entsprechenden unicode codes (@expected_codepoints) finden
Das wären die Zeichen, die du erwartest. Also a-z, A-Z, und dann noch die tschechischen Zeichen, also 0x011B (e mit caron) und all die anderen.
Quote und dann den text ($octets_to_analyze) ändern?
Das würde bei dir typisch aus einer Datei kommen, denke ich. Also müsstest du da sowas wie
$octets_to_analyze = do { open my $fh, $dateiname or die; binmode $fh; <$fh> }; machen.
QuoteAb dann muss ich zugeben, versteh ich sowieso nicht mehr was das script macht.
Ich glaube mit piconv könnte ich zurecht kommen, kann man das auch in einem script verwenden?
Klar, aber in einem Perl-Skript würde ich lieber Encode::from_to() verwenden. piconv ist gut für den Gebrauch in der Kommandozeile.
QuoteIch habe perl64 installiert, das ist glaube ich für vista.
Annett