Das Problem der Stichprobengröße
Das Problem der Stichprobengröße
Artikel in dieser Reihe
- Die Grundlagen statistischen Testens in der Medizin: Eine leicht verständliche Erklärung von p-Wert, Effektstärke und Hypothesen
- Stichprobe oder Population? Wo ist der Unterschied?
- Null- und Alternativhypothese – die Grundlage deiner Studie
- Fehler 1. und 2. Art und die Sache mit der Wahrscheinlichkeit
- Die Testlogik und der p-Wert
- Das Problem der Stichprobengröße
- So beurteilst du deine Studienergebnisse
- Die „optimale“ Stichprobengröße? Ein Fall für die Fallzahlschätzung!
Artikel in dieser Reihe
- Die Grundlagen statistischen Testens in der Medizin: Eine leicht verständliche Erklärung von p-Wert, Effektstärke und Hypothesen
- Stichprobe oder Population? Wo ist der Unterschied?
- Null- und Alternativhypothese – die Grundlage deiner Studie
- Fehler 1. und 2. Art und die Sache mit der Wahrscheinlichkeit
- Die Testlogik und der p-Wert
- Das Problem der Stichprobengröße
- So beurteilst du deine Studienergebnisse
- Die „optimale“ Stichprobengröße? Ein Fall für die Fallzahlschätzung!
Nun liegt der Teufel ja häufig im Detail, und in der Inferenzstatistik ist das leider auch so.
Eine der unschönen Eigenschaften statistischer Tests (auf die man auch beim Lesen von Forschungsberichten immer achten sollte) ist, dass der p-Wert wesentlich von der Stichprobengröße abhängt.
Warum das so ist, würde leider etwas mehr mathematisches Hintergrundwissen erfordern.
Als Faustregel kannst du dir jedoch merken, dass, bei ansonsten gleichen Bedingungen, der p-Wert umso geringer ausfallen wird, je größer die Stichprobe ist.
Nehmen wir einmal an, dass wir für unser Beispiel oben (Stichprobe von 50 Männern und 50 Frauen, Mittelwertsdifferenz von M1 – M2 = 0.7) einen p-Wert von p = 0.12 bekommen würden und uns somit für die H0 entscheiden sollten.
Wenn man nun statt jeweils 50 Männern und Frauen jeweils 50.000 Männer und Frauen erhoben hätte und die gleiche Mittelwertsdifferenz von 0.7 bekommen würde, dann wäre der p-Wert deutlich niedriger (definitiv kleiner als unser α = .05) und wir sollten uns dann gegen die H0 entscheiden.
Warum soll das eine unschöne Eigenschaft sein?
Man könnte ja denken: „OK, dann brauche ich doch einfach immer nur ziemlich große Stichproben zu erheben und dann werde ich wohl auch ein signifikantes Ergebnis bekommen!“
Das ist so weit richtig, aber die falsche Herangehensweise!
Das Problem ist, dass man stets zwischen statistischer Bedeutsamkeit und inhaltlicher, also klinischer Bedeutsamkeit eines Ergebnisses unterscheiden sollte.
Wenn man jetzt (wieder in unserem Beispiel) für 50.000 Männer und 50.000 Frauen eine Mittelwertsdifferenz von M1 – M2 = 0.000001 mit einem zugehörigen p-Wert von p = .015 bekommen würde, dann wäre das Ergebnis zwar statistisch signifikant, da p ≤ .05.
Allerdings würde man hier sofort (ohne jegliche statistischen Kenntnisse haben zu müssen) sagen, dass dieser gefundene Unterschied inhaltlich und somit klinisch ziemlich irrelevant ist.
Denn diese Differenz besagt ja nichts anderes, als dass der gefundene Unterschied darin besteht, dass die Männer im Schnitt alle 1.000.000 Monate (oder grob alle 83.333 Jahre) einmal häufiger den Arzt aufsuchen als die Frauen. Wow.
Anders formuliert heißt das:
Wann immer es um die Beurteilung und Interpretation von Untersuchungsergebnissen geht (die eigenen oder die anderen Personen), dann sollte man nicht allein sklavisch auf die p-Werte achten, sondern immer auch inhaltliche und klinische Überlegungen miteinbeziehen.
Aus diesem Grund bestehen mittlerweile auch die meisten seriösen Journals darauf, bei Publikationen eben nicht nur die p-Werte zu berichten, sondern auch andere Größen wie etwa die Effektgröße (z.B Cohen’s d oder der Determinationskoeffizient) oder Konfidenzintervalle, die nicht (oder zumindest weniger stark) von der Stichprobengröße abhängig sind.
Jetzt hast du endlich die theoretische Seite des statistischen Testens hinter (und hoffentlich eine Menge gelernt!).