Thread Zeichensätze UTF-8 -> Latin-1 konvertieren (21 answers)
Opened by Glasperlenspieler at 2011-01-04 09:53

topeg
 2011-01-04 22:46
#144073 #144073
User since
2006-07-10
2611 Artikel
BenutzerIn

user image
Hier ein kleines Script, welches alle UTF-8 Zeichen in einem Text ausgibt.

Code (perl): (dl )
1
2
3
4
5
6
7
8
9
10
#!/usr/bin/perl
use strict;
use warnings;
binmode(STDIN);
my %found;
while(<STDIN>)
{
  while(/((?:(?:[\xF0-\xF4][\x90-\xBF]|[\xE0-\xEF])[\x80-\xBF]|[\xC2-\xDF])[\x80-\xBF])/g)
  { print "UTF-8 CHAR: $1\n" unless( $found{$1}++ ); }
}
Aufruf:
Code: (dl )
perl print_utf8_chars.pl < text.txt

Welche Zeichen unkonvertierbar sind zeigt es nicht an. Dazu bedarf es einer Zuweisungstabelle.

View full thread Zeichensätze UTF-8 -> Latin-1 konvertieren