Thread ZERO WIDTH SPACE (Unicode 200B) mit einem RegEx finden und ersetzen (6 answers)
Opened by micha2 at 2023-07-12 14:26

rosti
 2023-07-20 18:04
#195147 #195147
User since
2011-03-19
3472 Artikel
BenutzerIn
[Homepage]
user image
Bytesemantisch:

Code (perl): (dl )
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
use strict;
use warnings;
use myLWP;

my $r = myLWP->new(
    uri    => 'http://rolfrost.de',
);

my $zwsp = pack "CCC", 0xE2, 0x80, 0x8B; 
my $shy  = pack("CC", 0xC2, 0xAD);
my $body = $r->request->response_body;
$body =~ s/$zwsp//g; # zero width space
$body =~ s/$shy//g;  # soft hyphen

print $body;


Bytesemantisch deswegen weil eine Webseite, also ein HTTP-Response-Body eben eine Bytesequenz ist. Von daher wird auch das ZWSP als Bytesequenz genommen. Code getestet.

Als Zugabe: http://rolfrost.de/mylwp.html

Viel Spaß damit ;)

View full thread ZERO WIDTH SPACE (Unicode 200B) mit einem RegEx finden und ersetzen