Thread Querschnittsreduzieren von Datensätzen (6 answers)
Opened by AndreasM at 2007-09-21 19:31

Ronnie
 2007-09-22 00:13
#99842 #99842
User since
2003-08-14
2022 Artikel
BenutzerIn
[default_avatar]
AndreasM+2007-09-21 20:10:20--
Es soll gar nichts gefiltert werden.

Naja, wenn du n aus m benötigst, ist das eine Auswahl - die nach einem Kriterium erfolgen muss. Du könntest dafür die Wahrscheinlichkeit verwenden. Bei deinem Beispiel wäre die Wahrscheinlichkeit ob ein Datensatz relevant ist oder nicht 3555/9768. Vereinfacht könnte sowas so ähnlich aussehen (mit ein paar Pferdefüssen):
Code (perl): (dl )
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
#!/usr/bin/perl

use strict;
use warnings;

my $max     = 6;
my $lines   = 20;
my $prob    = $max / $lines;
my $cnt     = 0;

while(<DATA>) {
    last if $cnt > $max;
    (rand(1) <= $prob) and $cnt++ and print;
}

print "last one was on line: " . $.;

__DATA__
foo
bar
buz
qiz
quz
foo
bar
buz
qiz
quz
foo
bar
buz
qiz
quz
foo
bar
buz
qiz
quz

EDIT: Es gibt übrigens einen signifikanten Unterschied zwischen einem "repräsentativen Querschnitt" und dem Querschnitt - bei letzterem gehen die meisten Leute von einer Fläche aus.

View full thread Querschnittsreduzieren von Datensätzen