Thread Querschnittsreduzieren von Datensätzen
(6 answers)
Opened by AndreasM at 2007-09-21 19:31 AndreasM+2007-09-21 20:10:20-- Naja, wenn du n aus m benötigst, ist das eine Auswahl - die nach einem Kriterium erfolgen muss. Du könntest dafür die Wahrscheinlichkeit verwenden. Bei deinem Beispiel wäre die Wahrscheinlichkeit ob ein Datensatz relevant ist oder nicht 3555/9768. Vereinfacht könnte sowas so ähnlich aussehen (mit ein paar Pferdefüssen): Code (perl): (dl
)
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 #!/usr/bin/perl use strict; use warnings; my $max = 6; my $lines = 20; my $prob = $max / $lines; my $cnt = 0; while(<DATA>) { last if $cnt > $max; (rand(1) <= $prob) and $cnt++ and print; } print "last one was on line: " . $.; __DATA__ foo bar buz qiz quz foo bar buz qiz quz foo bar buz qiz quz foo bar buz qiz quz EDIT: Es gibt übrigens einen signifikanten Unterschied zwischen einem "repräsentativen Querschnitt" und dem Querschnitt - bei letzterem gehen die meisten Leute von einer Fläche aus. |