Das Problem der Stichprobengröße

Das Problem der Stichprobengröße

Das Problem der Stichprobengröße

 

Nun liegt der Teufel ja häufig im Detail, und in der Inferenzstatistik ist das leider auch so.

Eine der unschönen Eigenschaften statistischer Tests (auf die man auch beim Lesen von Forschungsberichten immer achten sollte) ist, dass der p-Wert wesentlich von der Stichprobengröße abhängt.

 

Warum das so ist, würde leider etwas mehr mathematisches Hintergrundwissen erfordern.

Als Faustregel kannst du dir jedoch merken, dass, bei ansonsten gleichen Bedingungen, der p-Wert umso geringer ausfallen wird, je größer die Stichprobe ist.

 

Nehmen wir einmal an, dass wir für unser Beispiel oben (Stichprobe von 50 Männern und 50 Frauen, Mittelwertsdifferenz von M1 – M2 = 0.7) einen p-Wert von p = 0.12 bekommen würden und uns somit für die H0 entscheiden sollten.

 

Wenn man nun statt jeweils 50 Männern und Frauen jeweils 50.000 Männer und Frauen erhoben hätte und die gleiche Mittelwertsdifferenz von 0.7 bekommen würde, dann wäre der p-Wert deutlich niedriger (definitiv kleiner als unser α = .05) und wir sollten uns dann gegen die H0 entscheiden.

 

Warum soll das eine unschöne Eigenschaft sein?

 

Man könnte ja denken: „OK, dann brauche ich doch einfach immer nur ziemlich große Stichproben zu erheben und dann werde ich wohl auch ein signifikantes Ergebnis bekommen!“

 

Das ist so weit richtig, aber die falsche Herangehensweise!

 

Das Problem ist, dass man stets zwischen statistischer Bedeutsamkeit und inhaltlicher, also klinischer Bedeutsamkeit eines Ergebnisses unterscheiden sollte.

 

Wenn man jetzt (wieder in unserem Beispiel) für 50.000 Männer und 50.000 Frauen eine Mittelwertsdifferenz von M1 – M2 = 0.000001 mit einem zugehörigen p-Wert von p = .015 bekommen würde, dann wäre das Ergebnis zwar statistisch signifikant, da p ≤ .05.

 

Allerdings würde man hier sofort (ohne jegliche statistischen Kenntnisse haben zu müssen) sagen, dass dieser gefundene Unterschied inhaltlich und somit klinisch ziemlich irrelevant ist.

 

Denn diese Differenz besagt ja nichts anderes, als dass der gefundene Unterschied darin besteht, dass die Männer im Schnitt alle 1.000.000 Monate (oder grob alle 83.333 Jahre) einmal häufiger den Arzt aufsuchen als die Frauen. Wow.

 

Anders formuliert heißt das:

 

Wann immer es um die Beurteilung und Interpretation von Untersuchungsergebnissen geht (die eigenen oder die anderen Personen), dann sollte man nicht allein sklavisch auf die p-Werte achten, sondern immer auch inhaltliche und klinische Überlegungen miteinbeziehen.

 

Aus diesem Grund bestehen mittlerweile auch die meisten seriösen Journals darauf, bei Publikationen eben nicht nur die p-Werte zu berichten, sondern auch andere Größen wie etwa die Effektgröße (z.B Cohen’s d oder der Determinationskoeffizient) oder Konfidenzintervalle, die nicht (oder zumindest weniger stark) von der Stichprobengröße abhängig sind.

 

Jetzt hast du endlich die theoretische Seite des statistischen Testens hinter (und hoffentlich eine Menge gelernt!).

 

Im nächsten Artikel geht es nun endlich um die konkrete Beurteilung deiner Studienergebnisse – es wird also ganz praktisch!

Die „optimale“ Stichprobengröße? Ein Fall für die Fallzahlschätzung!

Die „optimale“ Stichprobengröße? Ein Fall für die Fallzahlschätzung!

Die „optimale“ Stichprobengröße? Ein Fall für die Fallzahlschätzung!

Abschließend stellt sich nun noch die Frage, wie groß die Stichprobe deiner Untersuchung denn nun idealerweise sein sollte.

 

Hier kann man leider keine pauschale Antwort geben, außer, dass man sich schon in der Phase der Entwicklung des Studiendesigns mit dieser Frage beschäftigen sollte!

 

Häufig ist es in der Medizin natürlich so, dass man die Stichprobengröße gar nicht frei wählen kann, beispielsweise bei retrospektiven Studien oder der Untersuchung von extrem seltenen Erkrankungen.

 

Wenn du jedoch die Stichprobengröße selbst bestimmen kannst (oder die Ethikkommission zufriedenstellen möchtest, die das sehr streng abfragt), dann solltest du unbedingt vor deiner Untersuchung eine Fallzahlschätzung durchführen.

 

Die ideale Vorgehensweise sieht so aus:

 

1.) Du solltest dir zunächst überlegen, an welcher Mindesteffektgröße du in deiner Untersuchung interessiert bist.

In diese Überlegung können gefundene Effektstärken bereits durchgeführter Untersuchungen aus der Literatur, klinisch-theoretische Erwägungen oder allgemein inhaltliche Erwägungen eingehen.

So könnten wir etwa für unser Beispiel festlegen, dass wir an Unterschieden zwischen der Häufigkeit der Arztbesuche, die sich unter einer Differenz von 1 bewegen nicht interessiert sind.

 

2.) Wenn du deine Mindesteffektgröße festgelegt hast, dann lässt sich mit Hilfe von Statistikprogrammen wie R oder G*Power die „optimale Stichprobengröße“ bestimmen.

Auf diese Weise kann der Test anhand der ermittelten Stichprobengröße, den von dir festgelegten Mindesteffekt mit einer (ebenfalls von dir festgelegten) Wahrscheinlichkeit 1-β auch „entdecken“, sofern dieser Mindesteffekt denn auch vorliegt.

 

Zur Erinnerung: Die Wahrscheinlichkeit 1 – β ist die Wahrscheinlichkeit, sich für die H1 zu entscheiden, wenn die H1 auch richtig ist (siehe das Vier-Felder-Schema in Artikel 4 dieser Reihe).

 

Diese Wahrscheinlichkeit nennt man auch die Power des Tests / die Macht des Tests oder die Teststärke.

Da die Power gerade die „Gegenwahrscheinlichkeit“ zu β ist (die Wahrscheinlichkeit für den Fehler 2. Art), kannst du durch die Festlegung der Power die Wahrscheinlichkeit für den Fehler 2. Art kontrollieren – und das ist genau was wir wollen!

FYI: In der Regel wählt man bei medizinischen Fragestellungen eine Power von 1 – β = .8, so dass die Wahrscheinlichkeit für den Fehler 2. Art dann eben β= .2 beträgt.

 

Natürlich ist das eine etwas vereinfachte Darstellung des Vorgehens, trotzdem gilt:

Wenn du die in der Fallzahlschätzung ermittelte Stichprobengröße in deiner Studie erhebst, musst du

1.) nicht mehr Personen untersuchen als nötig (was sehr ökonomisch sein kann) und 

2.) hast du auf diese Weise die bestmöglichen Interpretationsmöglichkeiten für dein Testergebnis!

Dann mal los:

Fall 1: Dein Testergebnis ist signifikant!

Hier bleibt alles wie gehabt, die Interpretation deines Effektes ändert sich nicht.

Es ist allerdings auch nicht möglich zu sagen, dass bei einem signifikanten Ergebnis, der von dir zu Beginn deiner Fallzahlschätzung festgelegte Mindesteffekt auf Populationsebene, mit einer Wahrscheinlichkeit von 1-β (also der von dir festgelegten Power), auch tatsächlich vorliegt.

In manchen Lehrbüchern findet man diese Interpretation, die ist aber leider falsch (warum das falsch ist lässt sich leider nur mit etwas mehr Mathematik erklären, und damit möchten wir dich an dieser Stelle nicht auch noch quälen).

 

Fall 2: Dein Testergebnis ist nicht signifikant!

Bei einem nicht-signifikanten Ergebnis verbessert sich die Interpretationslage durch eine optimale Stichprobengröße dramatisch!

Nun darfst du endlich sagen, dass der von dir festgelegte Mindesteffekt (oder ein noch größerer) ziemlich sicher nicht vorliegt.

Denn wenn er vorliegen würde, dann hättest du ihn mit der von dir festgelegten Power auch gefunden!

Zur Erinnerung: Bei einer kleiner als in der Fallzahlschätzung ermittelten Stichprobe war diese Aussage nicht möglich, denn hier wäre deine Stichprobe einfach nicht groß genug gewesen, um die entsprechende Effektstärke (oder eine noch kleinere) detektieren zu können!

 

Du siehst also, bei einer optimalen Stichprobengröße kann ein nicht-signifikantes Testergebnis (mindestens) genauso informativ sein wie ein signifikantes!

 

Somit raten wir dir immer vor Beginn deiner Studie eine Fallzahlschätzung durchzuführen. Und wenn du es nicht freiwillig machst, dann wird es die Ethikkommission oder ein anderes Komitee von dir einfordern…

Wir hoffen, dass dir diese Artikelreihe geholfen hat, die Grundlagen des statistischen Testens zu verstehen!

Bei weiteren Fragen kannst du uns gerne einen Kommentar hinterlassen!

Lade dir hier die Formelsammlung für deinen Bland-Altman-Plot herunter

Melde dich für meinen Newsletter an und erhalte sofort das PDF!

You have Successfully Subscribed!

10 % Rabatt auf unsereWorkshops & Kurse im Onlineshop!

Trage dich hier für Dr. Ortmanns beste Maildizin ein und erhalte regelmäßige Rabatte, Tipps und Coachinginhalte für deine empirische Promotion

You have Successfully Subscribed!

Lade dir hier die Checkliste für deinen Methodenteil herunter

Melde dich für meinen Newsletter an und erhalte sofort das PDF!

You have Successfully Subscribed!


Jetzt 10 % Rabatt auf alle

Workshops & Kurse sichern!

You have Successfully Subscribed!

Downloade dir hier das Flowchart für deine ANOVA

Melde dich für meinen Newsletter an und erhalte sofort das PDF!

You have Successfully Subscribed!

Lade dir hier die Vorlage für den Aufbau deines Datensatzes herunter

Melde dich für meinen Newsletter an und erhalte sofort die Excel-Vorlage!

You have Successfully Subscribed!