Stichprobe oder Population? Wo ist der Unterschied?

Stichprobe oder Population? Wo ist der Unterschied?

Stichprobe oder Population? Wo ist der Unterschied?

Die wichtigste Unterscheidung, die man bei statistischen Tests immer im Hinterkopf haben sollte, ist die zwischen Population und Stichprobe.

 Natürlich möchtest du im eben entwickelten Beispiel nicht wissen, ob die Männer deiner Stichprobe häufiger zum Arzt gehen als die Frauen deiner Stichprobe. Um diese Frage zu beantworten bräuchtest du keinen statistischen Test, sondern du kannst ja unmittelbar sehen, dass M1 größer ist als M2.

Deine Untersuchungsfrage bezieht sich also nicht auf die erhobene Stichprobe, sondern auf die zugehörige Population, aus der diese Stichprobe stammt.

Du möchtest wissen, ob Männer in Deutschland häufiger pro Monat einen Arzt aufsuchen als Frauen und gemeint ist damit, dass die Gesamtheit der Männer in Deutschland im Schnitt häufiger einen Arzt aufsucht als die Gesamtheit der Frauen in Deutschland.

 

Da du nun aber natürlich nicht die ganze Population (also sämtliche Männer und sämtliche Frauen aus Deutschland) untersuchen kannst, ziehst du eben zufällig aus dieser Population eine Stichprobe.

Das tust du in der Hoffnung anhand deiner Stichprobe Rückschlüsse auf die Population ziehen zu können (deshalb heißt das Ganze dann auch „Inferenzstatistik“).

Um diesen extrem wichtigen Unterschied (der auch nicht selten für Verwirrung und Ungereimtheiten in der Interpretation von Untersuchungsergebnissen sorgt) dauerhaft und sichtbar deutlich zu machen, ist es sinnvoll statistische Parameter (wie etwa den Mittelwert, die Standardabweichung oder auch die Korrelation), die sich sowohl auf die Stichprobe als auch auf die Population beziehen können, unterschiedlich zu kennzeichnen.

 

So kennzeichnen wir Parameter der Population und der Stichprobe:

So verwendet man für statistische Parameter, die sich auf die Stichprobe beziehen, lateinische Buchstaben wie beispielsweise M für den Mittelwert, S für die Standardabweichung oder r für die Korrelation zwischen zwei Variablen.

Meint man hingegen statistische Parameter, die sich auf die gesamte Population beziehen, dann bezeichnet man diese in der Regel mit griechischen Buchstaben wie μ für den Mittelwert der gesamten Population, σ für die Standardabweichung der gesamten Population und ρ für die Korrelation zweier Variablen innerhalb der gesamten Population.

 

Du kannst hier gut sehen, wie wichtig und nützlich solche unterschiedlichen Notationen sind, denn wenn man einfach nur von „Mittelwert“ oder „Standardabweichung“ reden würde, dann ist ohne Weiteres natürlich nicht klar, welches der beiden Konzepte (Stichproben- oder Populationsebene) denn nun gemeint ist!

Anhand unseres einfachen Beispiels siehst du wahrscheinlich sofort, dass:

  1. die beiden Stichprobenmittelwerte M1 und M2 natürlich davon abhängig sind, welche konkrete Stichprobe man gezogen hat (also welche 50 Frauen und welche 50 Männer aus der gesamten Population, denn auch bei Zufallsziehungen kann das ganz schön variieren!)
  2. es ziemlich wahrscheinlich ist, dass man bei einer weiteren zufällig gezogenen Stichprobe von 50 Männern und 50 Frauen ziemlich sicher andere Stichprobenmittelwerte bekommen würde (wie sehr anders weiß man natürlich nicht)
  3. in der Regel die erhobenen Stichprobenmittelwerte M1 und M2 nicht identisch den Mittelwerten der gesamten Population μ1 und μ2 sein werden (also den Mittelwerten von allen Männern bzw. Frauen aus Deutschland). Das folgt aus den ersten beiden Punkten.

 

Diese 3 Punkte werden für das weitere Verständnis wichtig sein!

Sie erklären dir auch, warum wir in verschiedenen Publikationen, die die gleiche Forschungsfrage untersuchen, abweichende Ergebnisse bekommen können.

 

 

Jetzt, wo das geklärt ist, geht es direkt weiter mit den Hypothesen, der Grundlage deines statistischen Tests.

Das Problem der Stichprobengröße

Das Problem der Stichprobengröße

Das Problem der Stichprobengröße

 

Nun liegt der Teufel ja häufig im Detail, und in der Inferenzstatistik ist das leider auch so.

Eine der unschönen Eigenschaften statistischer Tests (auf die man auch beim Lesen von Forschungsberichten immer achten sollte) ist, dass der p-Wert wesentlich von der Stichprobengröße abhängt.

 

Warum das so ist, würde leider etwas mehr mathematisches Hintergrundwissen erfordern.

Als Faustregel kannst du dir jedoch merken, dass, bei ansonsten gleichen Bedingungen, der p-Wert umso geringer ausfallen wird, je größer die Stichprobe ist.

 

Nehmen wir einmal an, dass wir für unser Beispiel oben (Stichprobe von 50 Männern und 50 Frauen, Mittelwertsdifferenz von M1 – M2 = 0.7) einen p-Wert von p = 0.12 bekommen würden und uns somit für die H0 entscheiden sollten.

 

Wenn man nun statt jeweils 50 Männern und Frauen jeweils 50.000 Männer und Frauen erhoben hätte und die gleiche Mittelwertsdifferenz von 0.7 bekommen würde, dann wäre der p-Wert deutlich niedriger (definitiv kleiner als unser α = .05) und wir sollten uns dann gegen die H0 entscheiden.

 

Warum soll das eine unschöne Eigenschaft sein?

 

Man könnte ja denken: „OK, dann brauche ich doch einfach immer nur ziemlich große Stichproben zu erheben und dann werde ich wohl auch ein signifikantes Ergebnis bekommen!“

 

Das ist so weit richtig, aber die falsche Herangehensweise!

 

Das Problem ist, dass man stets zwischen statistischer Bedeutsamkeit und inhaltlicher, also klinischer Bedeutsamkeit eines Ergebnisses unterscheiden sollte.

 

Wenn man jetzt (wieder in unserem Beispiel) für 50.000 Männer und 50.000 Frauen eine Mittelwertsdifferenz von M1 – M2 = 0.000001 mit einem zugehörigen p-Wert von p = .015 bekommen würde, dann wäre das Ergebnis zwar statistisch signifikant, da p ≤ .05.

 

Allerdings würde man hier sofort (ohne jegliche statistischen Kenntnisse haben zu müssen) sagen, dass dieser gefundene Unterschied inhaltlich und somit klinisch ziemlich irrelevant ist.

 

Denn diese Differenz besagt ja nichts anderes, als dass der gefundene Unterschied darin besteht, dass die Männer im Schnitt alle 1.000.000 Monate (oder grob alle 83.333 Jahre) einmal häufiger den Arzt aufsuchen als die Frauen. Wow.

 

Anders formuliert heißt das:

 

Wann immer es um die Beurteilung und Interpretation von Untersuchungsergebnissen geht (die eigenen oder die anderen Personen), dann sollte man nicht allein sklavisch auf die p-Werte achten, sondern immer auch inhaltliche und klinische Überlegungen miteinbeziehen.

 

Aus diesem Grund bestehen mittlerweile auch die meisten seriösen Journals darauf, bei Publikationen eben nicht nur die p-Werte zu berichten, sondern auch andere Größen wie etwa die Effektgröße (z.B Cohen’s d oder der Determinationskoeffizient) oder Konfidenzintervalle, die nicht (oder zumindest weniger stark) von der Stichprobengröße abhängig sind.

 

Jetzt hast du endlich die theoretische Seite des statistischen Testens hinter (und hoffentlich eine Menge gelernt!).

 

Im nächsten Artikel geht es nun endlich um die konkrete Beurteilung deiner Studienergebnisse – es wird also ganz praktisch!

Die „optimale“ Stichprobengröße? Ein Fall für die Fallzahlschätzung!

Die „optimale“ Stichprobengröße? Ein Fall für die Fallzahlschätzung!

Die „optimale“ Stichprobengröße? Ein Fall für die Fallzahlschätzung!

Abschließend stellt sich nun noch die Frage, wie groß die Stichprobe deiner Untersuchung denn nun idealerweise sein sollte.

 

Hier kann man leider keine pauschale Antwort geben, außer, dass man sich schon in der Phase der Entwicklung des Studiendesigns mit dieser Frage beschäftigen sollte!

 

Häufig ist es in der Medizin natürlich so, dass man die Stichprobengröße gar nicht frei wählen kann, beispielsweise bei retrospektiven Studien oder der Untersuchung von extrem seltenen Erkrankungen.

 

Wenn du jedoch die Stichprobengröße selbst bestimmen kannst (oder die Ethikkommission zufriedenstellen möchtest, die das sehr streng abfragt), dann solltest du unbedingt vor deiner Untersuchung eine Fallzahlschätzung durchführen.

 

Die ideale Vorgehensweise sieht so aus:

 

1.) Du solltest dir zunächst überlegen, an welcher Mindesteffektgröße du in deiner Untersuchung interessiert bist.

In diese Überlegung können gefundene Effektstärken bereits durchgeführter Untersuchungen aus der Literatur, klinisch-theoretische Erwägungen oder allgemein inhaltliche Erwägungen eingehen.

So könnten wir etwa für unser Beispiel festlegen, dass wir an Unterschieden zwischen der Häufigkeit der Arztbesuche, die sich unter einer Differenz von 1 bewegen nicht interessiert sind.

 

2.) Wenn du deine Mindesteffektgröße festgelegt hast, dann lässt sich mit Hilfe von Statistikprogrammen wie R oder G*Power die „optimale Stichprobengröße“ bestimmen.

Auf diese Weise kann der Test anhand der ermittelten Stichprobengröße, den von dir festgelegten Mindesteffekt mit einer (ebenfalls von dir festgelegten) Wahrscheinlichkeit 1-β auch „entdecken“, sofern dieser Mindesteffekt denn auch vorliegt.

 

Zur Erinnerung: Die Wahrscheinlichkeit 1 – β ist die Wahrscheinlichkeit, sich für die H1 zu entscheiden, wenn die H1 auch richtig ist (siehe das Vier-Felder-Schema in Artikel 4 dieser Reihe).

 

Diese Wahrscheinlichkeit nennt man auch die Power des Tests / die Macht des Tests oder die Teststärke.

Da die Power gerade die „Gegenwahrscheinlichkeit“ zu β ist (die Wahrscheinlichkeit für den Fehler 2. Art), kannst du durch die Festlegung der Power die Wahrscheinlichkeit für den Fehler 2. Art kontrollieren – und das ist genau was wir wollen!

FYI: In der Regel wählt man bei medizinischen Fragestellungen eine Power von 1 – β = .8, so dass die Wahrscheinlichkeit für den Fehler 2. Art dann eben β= .2 beträgt.

 

Natürlich ist das eine etwas vereinfachte Darstellung des Vorgehens, trotzdem gilt:

Wenn du die in der Fallzahlschätzung ermittelte Stichprobengröße in deiner Studie erhebst, musst du

1.) nicht mehr Personen untersuchen als nötig (was sehr ökonomisch sein kann) und 

2.) hast du auf diese Weise die bestmöglichen Interpretationsmöglichkeiten für dein Testergebnis!

Dann mal los:

Fall 1: Dein Testergebnis ist signifikant!

Hier bleibt alles wie gehabt, die Interpretation deines Effektes ändert sich nicht.

Es ist allerdings auch nicht möglich zu sagen, dass bei einem signifikanten Ergebnis, der von dir zu Beginn deiner Fallzahlschätzung festgelegte Mindesteffekt auf Populationsebene, mit einer Wahrscheinlichkeit von 1-β (also der von dir festgelegten Power), auch tatsächlich vorliegt.

In manchen Lehrbüchern findet man diese Interpretation, die ist aber leider falsch (warum das falsch ist lässt sich leider nur mit etwas mehr Mathematik erklären, und damit möchten wir dich an dieser Stelle nicht auch noch quälen).

 

Fall 2: Dein Testergebnis ist nicht signifikant!

Bei einem nicht-signifikanten Ergebnis verbessert sich die Interpretationslage durch eine optimale Stichprobengröße dramatisch!

Nun darfst du endlich sagen, dass der von dir festgelegte Mindesteffekt (oder ein noch größerer) ziemlich sicher nicht vorliegt.

Denn wenn er vorliegen würde, dann hättest du ihn mit der von dir festgelegten Power auch gefunden!

Zur Erinnerung: Bei einer kleiner als in der Fallzahlschätzung ermittelten Stichprobe war diese Aussage nicht möglich, denn hier wäre deine Stichprobe einfach nicht groß genug gewesen, um die entsprechende Effektstärke (oder eine noch kleinere) detektieren zu können!

 

Du siehst also, bei einer optimalen Stichprobengröße kann ein nicht-signifikantes Testergebnis (mindestens) genauso informativ sein wie ein signifikantes!

 

Somit raten wir dir immer vor Beginn deiner Studie eine Fallzahlschätzung durchzuführen. Und wenn du es nicht freiwillig machst, dann wird es die Ethikkommission oder ein anderes Komitee von dir einfordern…

Wir hoffen, dass dir diese Artikelreihe geholfen hat, die Grundlagen des statistischen Testens zu verstehen!

Bei weiteren Fragen kannst du uns gerne einen Kommentar hinterlassen!

Lade dir hier die Formelsammlung für deinen Bland-Altman-Plot herunter

Melde dich für meinen Newsletter an und erhalte sofort das PDF!

You have Successfully Subscribed!

10 % Rabatt auf unsereWorkshops & Kurse im Onlineshop!

Trage dich hier für Dr. Ortmanns beste Maildizin ein und erhalte regelmäßige Rabatte, Tipps und Coachinginhalte für deine empirische Promotion

You have Successfully Subscribed!

Lade dir hier die Checkliste für deinen Methodenteil herunter

Melde dich für meinen Newsletter an und erhalte sofort das PDF!

You have Successfully Subscribed!


Jetzt 10 % Rabatt auf alle

Workshops & Kurse sichern!

You have Successfully Subscribed!

Downloade dir hier das Flowchart für deine ANOVA

Melde dich für meinen Newsletter an und erhalte sofort das PDF!

You have Successfully Subscribed!

Lade dir hier die Vorlage für den Aufbau deines Datensatzes herunter

Melde dich für meinen Newsletter an und erhalte sofort die Excel-Vorlage!

You have Successfully Subscribed!