Querschnittsreduzieren von Datensätzen - #99842 (Allgemeines zu Perl)

Ronnie

2007-09-22 00:13

User since
2003-08-14
2022 Artikel
BenutzerIn
[default_avatar]

AndreasM+2007-09-21 20:10:20--
Es soll gar nichts gefiltert werden.

Naja, wenn du n aus m benötigst, ist das eine Auswahl - die nach einem Kriterium erfolgen muss. Du könntest dafür die Wahrscheinlichkeit verwenden. Bei deinem Beispiel wäre die Wahrscheinlichkeit ob ein Datensatz relevant ist oder nicht 3555/9768. Vereinfacht könnte sowas so ähnlich aussehen (mit ein paar Pferdefüssen):

Code (perl): (dl )

#!/usr/bin/perl

use strict;
use warnings;

my $max     = 6;
my $lines   = 20;
my $prob    = $max / $lines;
my $cnt     = 0;

while(<DATA>) {
    last if $cnt > $max;
    (rand(1) <= $prob) and $cnt++ and print;
}

print "last one was on line: " . $.;

__DATA__
foo
bar
buz
qiz
quz
foo
bar
buz
qiz
quz
foo
bar
buz
qiz
quz
foo
bar
buz
qiz
quz

EDIT: Es gibt übrigens einen signifikanten Unterschied zwischen einem "repräsentativen Querschnitt" und dem Querschnitt - bei letzterem gehen die meisten Leute von einer Fläche aus.