Die Testlogik und der p-Wert
Artikel in dieser Reihe
- Die Grundlagen statistischen Testens in der Medizin: Eine leicht verständliche Erklärung von p-Wert, Effektstärke und Hypothesen
- Stichprobe oder Population? Wo ist der Unterschied?
- Null- und Alternativhypothese – die Grundlage deiner Studie
- Fehler 1. und 2. Art und die Sache mit der Wahrscheinlichkeit
- Die Testlogik und der p-Wert
- Das Problem der Stichprobengröße
- So beurteilst du deine Studienergebnisse
- Die „optimale“ Stichprobengröße? Ein Fall für die Fallzahlschätzung!
Artikel in dieser Reihe
- Die Grundlagen statistischen Testens in der Medizin: Eine leicht verständliche Erklärung von p-Wert, Effektstärke und Hypothesen
- Stichprobe oder Population? Wo ist der Unterschied?
- Null- und Alternativhypothese – die Grundlage deiner Studie
- Fehler 1. und 2. Art und die Sache mit der Wahrscheinlichkeit
- Die Testlogik und der p-Wert
- Das Problem der Stichprobengröße
- So beurteilst du deine Studienergebnisse
- Die „optimale“ Stichprobengröße? Ein Fall für die Fallzahlschätzung!
Was passiert nun genau bei einem statistischen Test und wie soll einem das Ergebnis helfen, eine Entscheidung zwischen H0 und H1 zu treffen?
Vereinfacht gesagt gibt dir das Ergebnis eines statistischen Tests an, wie wahrscheinlich es ist, dass man die Daten, die man erhoben hat, bekommt, wenn die H0 richtig wäre.
Hier noch mal einfacher ausgedrückt:
Man tut also so, als ob die H0 richtig wäre und schaut sich dann an, wie wahrscheinlich es ist, dass man die Daten, die man erhoben hat unter dieser Bedingung bekommen würde.
Und jetzt nochmal ganz konkret:
In unserem Beispiel würden wir also als Testergebnis die Wahrscheinlichkeit dafür bekommen, dass die Differenz zwischen dem Mittelwert einer zufällig gezogenen Stichprobe von 50 Männern und dem Mittelwert einer zufällig gezogenen Stichprobe von 50 Frauen genau M1 – M2 = 3.2 – 2.5 = 0.7 ist, wenn sich Frauen und Männer auf Populationsebene eigentlich nicht darin unterscheiden, wie oft sie im Schnitt pro Monat den Arzt aufsuchen (also wenn die H0 richtig wäre).
Der letzte Satz ist eine harte Nuss, lies ihn am besten nochmal, um ganz sicher zu gehen, dass du ihn verstanden hast.
Erinnern wir uns noch mal kurz an die 3 Punkte aus Kapitel 2:
Hier hast du gelernt, dass es je nach gezogener Stichprobe zu sehr unterschiedlichen Mittelwerten kommen kann und dass diese Mittelwerte sich deutlich von den Mittelwerten auf Populationsebene (die wir ja nicht kennen) unterscheiden können.
Es ist somit nicht ausgeschlossen, dass man eine Stichprobenmittelwertsdifferenz von M1 – M2 = 0.7 bekommt, obwohl sich auf Populationsebene Männer und Frauen nicht unterscheiden (also die H0 gilt).
So können wir etwa ungünstigerweise ein paar Männer in unserer Stichprobe haben, die häufiger zum Arzt gehen als die restlichen Männer der Population (oder ein paar Frauen, die seltener zum Arzt gehen als die restlichen Frauen der Population).
Allerdings wird das natürlich umso unwahrscheinlicher, je größer die erhobene Stichprobenmittelwertsdifferenz tatsächlich ist.
Wenn die H0 richtig wäre, sich Männer und Frauen (wiederum: die Population!) also nicht unterscheiden, ist es natürlich unwahrscheinlicher, dass man eine Mittelwertsdifferenz von 15 bekommt, als eine Differenz von 1, 0.7 oder 0.1 usw. Aber ausgeschlossen ist es eben nicht.
Woran erkennen wir nun also, woran wir sind?
Dafür nutzen wir den p-Wert!
Der p-Wert und die Entscheidung
Der Clou ist nun, dass sich für jede mögliche Stichprobenmittelwertsdifferenz in unserem Beispiel berechnen lässt, wie wahrscheinlich es ist, dass diese auftritt, wenn die H0 richtig wäre.
Diese Wahrscheinlichkeit ist nichts anderes als der „berühmt-berüchtigte“ p-Wert, von dem du sicher schon gehört hast. Und genau dieser p-Wert dient uns letztendlich als Kriterium dafür, ob wir uns für die H0 oder für die H1 entscheiden sollten.
Es gilt: Je geringer der p-Wert ist, umso „unplausibler“ ist die H0.
Wenn wir in unserem Beispiel etwa eine Stichprobenmittelwertsdifferenz von 15 erhoben hätten und wir als Ergebnis unseres Tests einen p-Wert von 0.001 bekommen hätten, dann würde es ziemlich schwer werden, uns selbst oder andere davon zu überzeugen, dass die H0 richtig ist.
Denn in diesem Fall läge die Wahrscheinlichkeit, dass man diese Differenz bekommt, wenn die H0 richtig wäre, ja nur bei 0.1%, und wäre somit wirklich sehr klein. Somit sollten wir uns besser für die H1 entscheiden!
Wir wissen somit natürlich auch (und hier kommt das Vier-Felder-Schema aus Kapitel 4 wieder ins Spiel), dass wenn wir uns in diesem Fall für die H1 entscheiden, die Wahrscheinlichkeit, dass wir uns fälschlicherweise für die H1 entscheiden (also den Fehler 1. Art begehen) natürlich ebenfalls 0.1% beträgt.
Der p-Wert ist ja gerade die Wahrscheinlichkeit, dass wir die Mittelwertsdifferenz bekommen, die wir tatsächlich erhoben haben, wenn die H0 richtig wäre.
Es stellt sich also nur noch die Frage, wo genau wir die Grenze für unsere Entscheidung für oder gegen die H0 setzen sollten.
Einerseits sollte der p-Wert, ab dem wir uns für die H1 entscheiden, natürlich nicht „zu groß“ sein, weil dann ja auch die Wahrscheinlichkeit, sich fälschlicherweise für die H1 zu entscheiden (den Fehler 1. Art zu begehen) „zu groß“ wäre.
Andererseits sollte der p-Wert, ab dem wir uns für die H1 entscheiden, natürlich auch nicht „zu klein“ sein. Dann würden wir zwar die Wahrscheinlichkeit für einen Fehler 1. Art ebenfalls sehr gering halten, allerdings würden wir uns dann auch nur in „sehr eindeutigen“ Fällen gegen die H0 entscheiden. Man spricht in diesem Fall auch von „konservativem Testen“.
Gerade in der Medizin sind die Effekte oder Unterschiede, die man mit seiner Untersuchung aufdecken möchte, aber oftmals klein bis mittelgroß (auch moderat genannt) und diese Effekte würden einem dann „durch die Lappen“ gehen, da man sich eben „zu konservativ“ verhält, also einfach zu streng testet.
Zudem können gerade in der Medizin die beiden Fehlentscheidungen (Fehler 1. Art und Fehler 2. Art) mit unterschiedlich schwerwiegenden praktischen Konsequenzen einhergehen:
Testest du beispielsweise, ob ein neu entwickeltes Medikament wirksamer ist als das herkömmlich eingesetzte und du weißt außerdem, dass das neue Medikament mit deutlich schwereren Nebenwirkungen einhergeht, dann ist der Fehler 1. Art (du entscheidest dich dafür, dass das neue Medikament wirksamer ist, obwohl dem nicht so ist) natürlich schwerwiegender als der Fehler 2. Art (du entscheidest dich dafür, dass beide gleich wirksam sind, obwohl das neue Medikament wirksamer ist).
Hier kommt somit ein weiterer wichtiger Punkt ins Spiel, nämlich die Eigenverantwortung der Forscherin bzw. des Forschers (die Statistikprogramme können einem ja nicht alle Entscheidungen abnehmen).
Du solltest also vor deiner Untersuchung festlegen, wie groß die Wahrscheinlichkeit für den Fehler 1. Art bei deinem Test denn maximal sein soll:
Diese Grenze bezeichnet man auch als α oder α-Niveau (siehe wieder das Vier-Felder-Schema in Artikel 4). In der Regel wird das α-Niveau per Konvention auf α = .05 festgesetzt, es kann aber auch Fälle geben, in denen man mit guten Gründen ein anderes α-Niveau wählen sollte (wie etwa in dem obigen Beispiel mit den neuen Medikament, das mehr Nebenwirkungen hat, als die Standardtherapie).
Wenn das α von dir festgelegt wurde, dann ist aufgrund der eben erläuterten Testlogik damit auch deine „Entscheidungsstrategie“ festgelegt:
- Ist der p-Wert aus deinem Test kleiner (oder gleich) dem vorher festgelegten α, dann solltest du dich gegen die H0 entscheiden.
- Ist der p-Wert aus deinem Test größer als das vorher festgelegte α, dann solltest du dich für die H0 entscheiden.
Hast du dein α-Niveau auf .05 gesetzt, dann weißt du, dass du dich mit dieser Entscheidungsstrategie unter der Annahme, dass die die H0 richtig ist in 95% aller Fälle auch richtigerweise für die H0 entscheidest und nur in 5% aller Fälle den Fehler 1. Art begehst.
Ist p ≤ α, dann spricht man auch von einem „signifikanten Ergebnis auf dem Niveau α“ (das hast du bestimmt auch schon einmal gehört) oder kurz von einem „signifikanten Ergebnis“.
Wichtiger Hinweis: Wenn du (was in der Medizin häufig passiert) mehrere Tests auf dem gleichen Datensatz durchführst, dann kommt es zu einem ungünstigen Effekt, der sogenannten α-Inflation. Was genau das ist und was du dagegen tun kannst erfährst du in unserem Glossar unter „multiplem Testen“ und „α-Inflation“.
Wie interpretierst du nun deine Testergebnisse?
Wie schon gesagt, egal wie das Ergebnis ausfällt (Entscheidung für oder gegen die H0), ein statistischer Test kann nicht „beweisen“, ob nun die H0 oder die H1 richtig ist.
Du entscheidest dich anhand deines Testergebnisses (also mit guten Gründen!) dafür, anzunehmen, dass entweder die H0 oder die H1 richtig ist.
Aber du weißt natürlich auch (siehe wieder das Vier-Felder-Schema in Artikel 4), dass du mit deiner Entscheidung möglicherweise falsch liegen kannst, da du ja den Fehler 1. oder 2. Art begehen kannst.
Und wie schon erklärt, weißt du bei einem signifikanten Ergebnis ebenfalls, dass die Wahrscheinlichkeit, dass du dich fälschlicherweise für die H1 entscheidest (Fehler 1. Art) nicht größer ist als das vorher von dir festgelegte α, also in der Regel 5%.
Aber Vorsicht!
Bei einem nicht-signifikanten Ergebnis ist die Lage etwas komplizierter!
Wenn du dich für die H0 entscheidest, weißt du zwar, dass die Wahrscheinlichkeit dafür, dass du deine erhobenen Daten bekommen hättest, wenn die H0 richtig wäre, größer ist als das vorher festgelegte α (das ist die oben erklärte Logik des Tests und der Grund, warum du dich für die H0 entscheidest).
Allerdings kannst du hier nicht ohne Weiteres bestimmen, wie hoch die Wahrscheinlichkeit dafür ist, dass du dich fälschlicherweise für die H0 entscheidest (also den Fehler 2. Art begehst).
Das ist blöd, denn wenn diese Wahrscheinlichkeit β recht hoch wäre, sagen wir beispielsweise 50%, dann wärst du in einer recht ungünstigen Position.
Denn das würde einerseits bedeuten, dass du dich aufgrund der Testlogik für die H0 entscheiden müsstest, da ja p > α.
Andererseits wüsstest du aber, dass du dich bei dieser Entscheidung für die H0 mit einer Wahrscheinlichkeit von 50% irren würdest.
Doch, wie das immer so ist, gibt es glücklicherweise eine Möglichkeit, Tests so zu konstruieren, dass du auch die Wahrscheinlichkeit β in gewisser Weise kontrollieren kannst.
Um diese Möglichkeit nachvollziehbar erklären zu können, müssen wir uns aber vorher noch mit einigen weiteren Feinheiten statistischer Tests beschäftigen (keine Sorge, bald hast du es geschafft).