Regex-Problem (Allgemeines zu Perl)

[thread]9224[/thread]

Regex-Problem

perlcharly

2007-07-25 13:56

User since
2007-01-05
11 Artikel
BenutzerIn
[default_avatar]

Hallo, ich kann folgende Aufgabe nicht lösen und quäle mich damit seit zweieinhalb Stunden herum:

Ein Text soll am Anfang gekürzt werden, und zwar bis zum ersten Vorkommen eines bestimmten Zeichens, z.B.: [
Das Wort davor soll jedoch nicht gelöscht werden, sondern stehen bleiben.

Beispiel: Anfangstext ist:
"Bei der folgenden Razzia im Teamhotel des Rennstalls [Astana] spielten sich skurrile Szenen ab. Immer mehr Gendarmen, darunter auch Polizeiärzte, trafen bei [Astana] ein."
Daraus soll werden:
"Rennstalls [Astana] spielten sich skurrile Szenen ab. Immer mehr Gendarmen, darunter auch Polizeiärzte, trafen bei [Astana] ein."

Meine bisherigen Regex-Transformationen waren bislang nur teilweise korrekt. Irgendwas übersehe ich.

renee

2007-07-25 14:11

User since
2003-08-04
14371 Artikel
ModeratorIn

Code (perl): (dl )

#!/usr/bin/perl

use strict;
use warnings;

my $string = "Bei der folgenden Razzia im Teamhotel des Rennstalls [Astana] spielten sich skurrile Szenen ab. Immer mehr Gendarmen, darunter auch Polizeiärzte, trafen bei [Astana] ein.";

my $zeichen = '[';

(my $short = $string) =~ s/^.*?(\w+\s\Q$zeichen\E.*)$/$1/;
print $short;

Fuer das explain habe ich \Q$zeichen\E mal durch \[ ersetzt...

Code: (dl )

The regular expression:
(?-imsx:^.*?(\w+\s\[.*)$)


matches as follows:

NODE                     EXPLANATION
----------------------------------------------------------------------
(?-imsx:                 group, but do not capture (case-sensitive)
                         (with ^ and $ matching normally) (with . not
                         matching \n) (matching whitespace and #
                         normally):
----------------------------------------------------------------------
  ^                        the beginning of the string
----------------------------------------------------------------------
  .*?                      any character except \n (0 or more times
                           (matching the least amount possible))
----------------------------------------------------------------------
  (                        group and capture to \1:
----------------------------------------------------------------------
    \w+                      word characters (a-z, A-Z, 0-9, _) (1 or
                             more times (matching the most amount
                             possible))
----------------------------------------------------------------------
    \s                       whitespace (\n, \r, \t, \f, and " ")
----------------------------------------------------------------------
    \[                       '['
----------------------------------------------------------------------
  )                        end of \1
----------------------------------------------------------------------
)                        end of grouping
----------------------------------------------------------------------

\n\n

OTRS-Erweiterungen (http://feature-addons.de/)
Frankfurt Perlmongers (http://frankfurt.pm/)
--

Unterlagen OTRS-Workshop 2012: http://otrs.perl-services.de/workshop.html
Perl-Entwicklung: http://perl-services.de/

perlcharly

2007-07-25 14:56

User since
2007-01-05
11 Artikel
BenutzerIn
[default_avatar]

Danke, das war's!
Das kleine Problem, dass das Wort davor noch Sonderzeichen enthalten kann (für statt für) habe ich jetzt auch gelöst.
Perlcharly

renee

2007-07-25 15:14

User since
2003-08-04
14371 Artikel
ModeratorIn

Du kannst auch \w einfach durch \S ersetzen...

View all threads created 2007-07-25 13:56.