Das Problem der Stichprobengröße

Das Problem der Stichprobengröße

Das Problem der Stichprobengröße

 

Nun liegt der Teufel ja häufig im Detail, und in der Inferenzstatistik ist das leider auch so.

Eine der unschönen Eigenschaften statistischer Tests (auf die man auch beim Lesen von Forschungsberichten immer achten sollte) ist, dass der p-Wert wesentlich von der Stichprobengröße abhängt.

 

Warum das so ist, würde leider etwas mehr mathematisches Hintergrundwissen erfordern.

Als Faustregel kannst du dir jedoch merken, dass, bei ansonsten gleichen Bedingungen, der p-Wert umso geringer ausfallen wird, je größer die Stichprobe ist.

 

Nehmen wir einmal an, dass wir für unser Beispiel oben (Stichprobe von 50 Männern und 50 Frauen, Mittelwertsdifferenz von M1 – M2 = 0.7) einen p-Wert von p = 0.12 bekommen würden und uns somit für die H0 entscheiden sollten.

 

Wenn man nun statt jeweils 50 Männern und Frauen jeweils 50.000 Männer und Frauen erhoben hätte und die gleiche Mittelwertsdifferenz von 0.7 bekommen würde, dann wäre der p-Wert deutlich niedriger (definitiv kleiner als unser α = .05) und wir sollten uns dann gegen die H0 entscheiden.

 

Warum soll das eine unschöne Eigenschaft sein?

 

Man könnte ja denken: „OK, dann brauche ich doch einfach immer nur ziemlich große Stichproben zu erheben und dann werde ich wohl auch ein signifikantes Ergebnis bekommen!“

 

Das ist so weit richtig, aber die falsche Herangehensweise!

 

Das Problem ist, dass man stets zwischen statistischer Bedeutsamkeit und inhaltlicher, also klinischer Bedeutsamkeit eines Ergebnisses unterscheiden sollte.

 

Wenn man jetzt (wieder in unserem Beispiel) für 50.000 Männer und 50.000 Frauen eine Mittelwertsdifferenz von M1 – M2 = 0.000001 mit einem zugehörigen p-Wert von p = .015 bekommen würde, dann wäre das Ergebnis zwar statistisch signifikant, da p ≤ .05.

 

Allerdings würde man hier sofort (ohne jegliche statistischen Kenntnisse haben zu müssen) sagen, dass dieser gefundene Unterschied inhaltlich und somit klinisch ziemlich irrelevant ist.

 

Denn diese Differenz besagt ja nichts anderes, als dass der gefundene Unterschied darin besteht, dass die Männer im Schnitt alle 1.000.000 Monate (oder grob alle 83.333 Jahre) einmal häufiger den Arzt aufsuchen als die Frauen. Wow.

 

Anders formuliert heißt das:

 

Wann immer es um die Beurteilung und Interpretation von Untersuchungsergebnissen geht (die eigenen oder die anderen Personen), dann sollte man nicht allein sklavisch auf die p-Werte achten, sondern immer auch inhaltliche und klinische Überlegungen miteinbeziehen.

 

Aus diesem Grund bestehen mittlerweile auch die meisten seriösen Journals darauf, bei Publikationen eben nicht nur die p-Werte zu berichten, sondern auch andere Größen wie etwa die Effektgröße (z.B Cohen’s d oder der Determinationskoeffizient) oder Konfidenzintervalle, die nicht (oder zumindest weniger stark) von der Stichprobengröße abhängig sind.

 

Jetzt hast du endlich die theoretische Seite des statistischen Testens hinter (und hoffentlich eine Menge gelernt!).

 

Im nächsten Artikel geht es nun endlich um die konkrete Beurteilung deiner Studienergebnisse – es wird also ganz praktisch!

So beurteilst du deine Studienergebnisse

So beurteilst du deine Studienergebnisse

So beurteilst du deine Studienergebnisse

Wenn du die Ergebnisse deiner Studie beurteilst, dann schau dir unbedingt die folgenden drei Ebenen eines jeden Effekts an:

 

1. (Statistische) Signifikanz

Dieser Punkt ist am leichtesten. Hier geht es nur darum, ob dein Testergebnis statistisch signifikant ist oder eben nicht, also ob p ≤ a.

 

2. Effektstärke

Da du weißt, dass die statistische Signifikanz von der Stichprobengröße abhängig ist, solltest du im nächsten Schritt Effektstärkemaße berechnen, um dein Ergebnis besser beurteilen zu können.

Hier kommt es nun darauf an, was für einen Test du genau durchgeführt hast, da es unterschiedliche Effektstärkemaße für unterschiedliche Verfahren gibt (und in der Regel auch mehrere Effektstärkemaße für ein Verfahren).

 

Für die gängigsten Verfahren sind das beispielsweise:

  • Cohens d oder Hedges g für den t-Test
  • der Determinationskoeffizient R² (oder das adjustierte R²) für die lineare Regression
  • η²(oder das partielle η²) oder ω² für varianzanalytische Modelle

Für jedes Effektstärkemaß gib es Konventionen (!), wie deren Größe zu interpretieren ist („kleiner“, „mittlerer“ oder „großer Effekt“), die immer im statistischen Analyseteil deiner Dissertation definiert werden sollten.

 

Effektstärken werden weniger stark von der Stichprobengröße beeinflusst als der p-Wert und geben dir somit einen besseren Eindruck über die statistische Bedeutsamkeit deines Effekts.

Sie sollten daher zusätzlich zum p-Wert berichtet und interpretiert werden.

(Wir können hier leider nicht im Detail auf die verschiedenen Effektstärken eingehen, weil es den Inhalt dieses Artikels sprengen würden. In jedem unserer Onlinekurse berechnen wir die Effektstärken aber serienmäßig mit und erklären dir genau, wie du sie interpretieren kannst).

 

3. Klinische Bedeutsamkeit

Hier bist du als Mediziner und klinischer Forscher gefragt! 

Nutze für diesen letzten Schritt dein gesamtes klinisches Wissen um die inhaltliche Bedeutsamkeit deines Effekts zu beurteilen.

Konzentriere dich dabei auf die deskriptive Statistik deines Effekts: 

  • Überlege zuerst in welcher Einheit deine untersuchten Variablen gemessen wurden. das hilft dir bei der klinischen Interpretation der Mittelwerte.
  • Schaue dir dann die Mittelwerte der Gruppen unabhängig von der Mittelwertsdifferenz an – sind sie im Normbereich, erhöht oder erniedrigt? Diese Einordnung hat nicht selten einen Einfluss auf die Bedeutung der Mittelwertsdifferenz (gleiches gilt für jeden anderen Test und alle von dir erstellten deskriptiven Statistiken)
  • Überlege dann: Ist z.B. die gemessene Mittelwertsdifferenz klinisch relevant, oder stellt sie keinen wichtigen Unterschied dar? (Das passiert z.B. sehr oft bei sehr großen Stichproben, die schnell zu signifikanten Testergebnissen führen.)
  • Achte nicht nur auf relative (%), sondern auch auf absolute (n) Unterschiede (sofern untersucht).
    Eine Reduktion der Nebenwirkung „Erbrechen“ um 50% durch das neue Studienmedikament im Vergleich zur Standardtherapie kann auf den ersten Blick sehr viel erscheinen und auch signifikant sein.
    Wenn aber vorher nur 2 von 10.000 Patienten unter Einnahme des Standardmedikaments erbrochen haben, und unter dem Studienmedikament nur noch ein Patient erbricht, dann stellt sich die Frage, ob wir wirklich von einer klinischen Überlegenheit des neuen Medikaments sprechen können und ob z.B. der höhere Preis des neuen Medikaments wirklich gerechtfertigt ist….

Somit ist es als Mediziner deine Aufgabe, deine Studienergebnisse anhand aller 3 Ebenen – Signifikanz, Effektstärke UND klinische Relevanz umfassend zu beurteilen.

 

In dem letzten Artikel dieser Reihe lernst du nun noch, wie du mithilfe der Fallzahlschätzung die richtige Stichprobengröße für deine Untersuchung ermittelst.

Lade dir hier die Formelsammlung für deinen Bland-Altman-Plot herunter

Melde dich für meinen Newsletter an und erhalte sofort das PDF!

You have Successfully Subscribed!

10 % Rabatt auf unsereWorkshops & Kurse im Onlineshop!

Trage dich hier für Dr. Ortmanns beste Maildizin ein und erhalte regelmäßige Rabatte, Tipps und Coachinginhalte für deine empirische Promotion

You have Successfully Subscribed!

Lade dir hier die Checkliste für deinen Methodenteil herunter

Melde dich für meinen Newsletter an und erhalte sofort das PDF!

You have Successfully Subscribed!


Jetzt 10 % Rabatt auf alle

Workshops & Kurse sichern!

You have Successfully Subscribed!

Downloade dir hier das Flowchart für deine ANOVA

Melde dich für meinen Newsletter an und erhalte sofort das PDF!

You have Successfully Subscribed!

Lade dir hier die Vorlage für den Aufbau deines Datensatzes herunter

Melde dich für meinen Newsletter an und erhalte sofort die Excel-Vorlage!

You have Successfully Subscribed!