Schrift
Wiki:Tipp zum Debugging: use Data::Dumper; local $Data::Dumper::Useqq = 1; print Dumper \@var;
[thread]9224[/thread]

Regex-Problem



<< >> 4 Einträge, 1 Seite
perlcharly
 2007-07-25 13:56
#78829 #78829
User since
2007-01-05
11 Artikel
BenutzerIn
[default_avatar]
Hallo, ich kann folgende Aufgabe nicht lösen und quäle mich damit seit zweieinhalb Stunden herum:

Ein Text soll am Anfang gekürzt werden, und zwar bis zum ersten Vorkommen eines bestimmten Zeichens, z.B.: [
Das Wort davor soll jedoch nicht gelöscht werden, sondern stehen bleiben.

Beispiel: Anfangstext ist:
"Bei der folgenden Razzia im Teamhotel des Rennstalls [Astana] spielten sich skurrile Szenen ab. Immer mehr Gendarmen, darunter auch Polizeiärzte, trafen bei [Astana] ein."
Daraus soll werden:
"Rennstalls [Astana] spielten sich skurrile Szenen ab. Immer mehr Gendarmen, darunter auch Polizeiärzte, trafen bei [Astana] ein."

Meine bisherigen Regex-Transformationen waren bislang nur teilweise korrekt. Irgendwas übersehe ich.
renee
 2007-07-25 14:11
#78830 #78830
User since
2003-08-04
14371 Artikel
ModeratorIn
[Homepage] [default_avatar]
Code (perl): (dl )
1
2
3
4
5
6
7
8
9
10
11
#!/usr/bin/perl

use strict;
use warnings;

my $string = "Bei der folgenden Razzia im Teamhotel des Rennstalls [Astana] spielten sich skurrile Szenen ab. Immer mehr Gendarmen, darunter auch Polizeiärzte, trafen bei [Astana] ein.";

my $zeichen = '[';

(my $short = $string) =~ s/^.*?(\w+\s\Q$zeichen\E.*)$/$1/;
print $short;


Fuer das explain habe ich \Q$zeichen\E mal durch \[ ersetzt...

Code: (dl )
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
The regular expression:
(?-imsx:^.*?(\w+\s\[.*)$)


matches as follows:

NODE EXPLANATION
----------------------------------------------------------------------
(?-imsx: group, but do not capture (case-sensitive)
(with ^ and $ matching normally) (with . not
matching \n) (matching whitespace and #
normally):
----------------------------------------------------------------------
^ the beginning of the string
----------------------------------------------------------------------
.*? any character except \n (0 or more times
(matching the least amount possible))
----------------------------------------------------------------------
( group and capture to \1:
----------------------------------------------------------------------
\w+ word characters (a-z, A-Z, 0-9, _) (1 or
more times (matching the most amount
possible))
----------------------------------------------------------------------
\s whitespace (\n, \r, \t, \f, and " ")
----------------------------------------------------------------------
\[ '['
----------------------------------------------------------------------
) end of \1
----------------------------------------------------------------------
) end of grouping
----------------------------------------------------------------------
\n\n

<!--EDIT|renee|1185358511-->
OTRS-Erweiterungen (http://feature-addons.de/)
Frankfurt Perlmongers (http://frankfurt.pm/)
--

Unterlagen OTRS-Workshop 2012: http://otrs.perl-services.de/workshop.html
Perl-Entwicklung: http://perl-services.de/
perlcharly
 2007-07-25 14:56
#78831 #78831
User since
2007-01-05
11 Artikel
BenutzerIn
[default_avatar]
Danke, das war's!
Das kleine Problem, dass das Wort davor noch Sonderzeichen enthalten kann (f&uuml;r statt für) habe ich jetzt auch gelöst.
Perlcharly
renee
 2007-07-25 15:14
#78832 #78832
User since
2003-08-04
14371 Artikel
ModeratorIn
[Homepage] [default_avatar]
Du kannst auch \w einfach durch \S ersetzen...
OTRS-Erweiterungen (http://feature-addons.de/)
Frankfurt Perlmongers (http://frankfurt.pm/)
--

Unterlagen OTRS-Workshop 2012: http://otrs.perl-services.de/workshop.html
Perl-Entwicklung: http://perl-services.de/
<< >> 4 Einträge, 1 Seite



View all threads created 2007-07-25 13:56.