Die „optimale“ Stichprobengröße? Ein Fall für die Fallzahlschätzung!
Artikel in dieser Reihe
- Die Grundlagen statistischen Testens in der Medizin: Eine leicht verständliche Erklärung von p-Wert, Effektstärke und Hypothesen
- Stichprobe oder Population? Wo ist der Unterschied?
- Null- und Alternativhypothese – die Grundlage deiner Studie
- Fehler 1. und 2. Art und die Sache mit der Wahrscheinlichkeit
- Die Testlogik und der p-Wert
- Das Problem der Stichprobengröße
- So beurteilst du deine Studienergebnisse
- Die „optimale“ Stichprobengröße? Ein Fall für die Fallzahlschätzung!
Artikel in dieser Reihe
- Die Grundlagen statistischen Testens in der Medizin: Eine leicht verständliche Erklärung von p-Wert, Effektstärke und Hypothesen
- Stichprobe oder Population? Wo ist der Unterschied?
- Null- und Alternativhypothese – die Grundlage deiner Studie
- Fehler 1. und 2. Art und die Sache mit der Wahrscheinlichkeit
- Die Testlogik und der p-Wert
- Das Problem der Stichprobengröße
- So beurteilst du deine Studienergebnisse
- Die „optimale“ Stichprobengröße? Ein Fall für die Fallzahlschätzung!
Abschließend stellt sich nun noch die Frage, wie groß die Stichprobe deiner Untersuchung denn nun idealerweise sein sollte.
Hier kann man leider keine pauschale Antwort geben, außer, dass man sich schon in der Phase der Entwicklung des Studiendesigns mit dieser Frage beschäftigen sollte!
Häufig ist es in der Medizin natürlich so, dass man die Stichprobengröße gar nicht frei wählen kann, beispielsweise bei retrospektiven Studien oder der Untersuchung von extrem seltenen Erkrankungen.
Wenn du jedoch die Stichprobengröße selbst bestimmen kannst (oder die Ethikkommission zufriedenstellen möchtest, die das sehr streng abfragt), dann solltest du unbedingt vor deiner Untersuchung eine Fallzahlschätzung durchführen.
Die ideale Vorgehensweise sieht so aus:
1.) Du solltest dir zunächst überlegen, an welcher Mindesteffektgröße du in deiner Untersuchung interessiert bist.
In diese Überlegung können gefundene Effektstärken bereits durchgeführter Untersuchungen aus der Literatur, klinisch-theoretische Erwägungen oder allgemein inhaltliche Erwägungen eingehen.
So könnten wir etwa für unser Beispiel festlegen, dass wir an Unterschieden zwischen der Häufigkeit der Arztbesuche, die sich unter einer Differenz von 1 bewegen nicht interessiert sind.
2.) Wenn du deine Mindesteffektgröße festgelegt hast, dann lässt sich mit Hilfe von Statistikprogrammen wie R oder G*Power die „optimale Stichprobengröße“ bestimmen.
Auf diese Weise kann der Test anhand der ermittelten Stichprobengröße, den von dir festgelegten Mindesteffekt mit einer (ebenfalls von dir festgelegten) Wahrscheinlichkeit 1-β auch „entdecken“, sofern dieser Mindesteffekt denn auch vorliegt.
Zur Erinnerung: Die Wahrscheinlichkeit 1 – β ist die Wahrscheinlichkeit, sich für die H1 zu entscheiden, wenn die H1 auch richtig ist (siehe das Vier-Felder-Schema in Artikel 4 dieser Reihe).
Diese Wahrscheinlichkeit nennt man auch die Power des Tests / die Macht des Tests oder die Teststärke.
Da die Power gerade die „Gegenwahrscheinlichkeit“ zu β ist (die Wahrscheinlichkeit für den Fehler 2. Art), kannst du durch die Festlegung der Power die Wahrscheinlichkeit für den Fehler 2. Art kontrollieren – und das ist genau was wir wollen!
FYI: In der Regel wählt man bei medizinischen Fragestellungen eine Power von 1 – β = .8, so dass die Wahrscheinlichkeit für den Fehler 2. Art dann eben β= .2 beträgt.
Natürlich ist das eine etwas vereinfachte Darstellung des Vorgehens, trotzdem gilt:
Wenn du die in der Fallzahlschätzung ermittelte Stichprobengröße in deiner Studie erhebst, musst du
1.) nicht mehr Personen untersuchen als nötig (was sehr ökonomisch sein kann) und
2.) hast du auf diese Weise die bestmöglichen Interpretationsmöglichkeiten für dein Testergebnis!
Dann mal los:
Fall 1: Dein Testergebnis ist signifikant!
Hier bleibt alles wie gehabt, die Interpretation deines Effektes ändert sich nicht.
Es ist allerdings auch nicht möglich zu sagen, dass bei einem signifikanten Ergebnis, der von dir zu Beginn deiner Fallzahlschätzung festgelegte Mindesteffekt auf Populationsebene, mit einer Wahrscheinlichkeit von 1-β (also der von dir festgelegten Power), auch tatsächlich vorliegt.
In manchen Lehrbüchern findet man diese Interpretation, die ist aber leider falsch (warum das falsch ist lässt sich leider nur mit etwas mehr Mathematik erklären, und damit möchten wir dich an dieser Stelle nicht auch noch quälen).
Fall 2: Dein Testergebnis ist nicht signifikant!
Bei einem nicht-signifikanten Ergebnis verbessert sich die Interpretationslage durch eine optimale Stichprobengröße dramatisch!
Nun darfst du endlich sagen, dass der von dir festgelegte Mindesteffekt (oder ein noch größerer) ziemlich sicher nicht vorliegt.
Denn wenn er vorliegen würde, dann hättest du ihn mit der von dir festgelegten Power auch gefunden!
Zur Erinnerung: Bei einer kleiner als in der Fallzahlschätzung ermittelten Stichprobe war diese Aussage nicht möglich, denn hier wäre deine Stichprobe einfach nicht groß genug gewesen, um die entsprechende Effektstärke (oder eine noch kleinere) detektieren zu können!
Du siehst also, bei einer optimalen Stichprobengröße kann ein nicht-signifikantes Testergebnis (mindestens) genauso informativ sein wie ein signifikantes!
Somit raten wir dir immer vor Beginn deiner Studie eine Fallzahlschätzung durchzuführen. Und wenn du es nicht freiwillig machst, dann wird es die Ethikkommission oder ein anderes Komitee von dir einfordern…
Wir hoffen, dass dir diese Artikelreihe geholfen hat, die Grundlagen des statistischen Testens zu verstehen!
Bei weiteren Fragen kannst du uns gerne einen Kommentar hinterlassen!