Die Grundlagen statistischer Tests in der Medizin: Eine leicht verständliche Erklärung von p-Wert, Effektstärke und Hypothesen

von Dr. Robert Pagel | Sep 13, 2023 | Statistik

Die Grundlagen statistischer Tests in der Medizin: Eine leicht verständliche Erklärung von p-Wert, Effektstärke und Hypothesen

Du hast dich schon immer gefragt, warum wir eigentlich statistische Tests wie ANOVAs, t-Tests oder Regressionen rechnen?

Wäre es nicht viel einfacher die Ergebnisse deiner Studie anhand der deskriptiven Statistiken oder Grafiken zu beschreiben?

Welche Bedeutung haben p-Werte und Effektstärken im Rahmen eines statistischen Tests?

Und wozu brauchen wir Fallzahlschätzungen?

Alle diese Fragen beantworten wir dir in dieser Artikelreihe.

Du lernst außerdem:

wie inferenzstatistische Tests prinzipiell funktionieren
welche Annahmen ihnen zu Grunde liegen und
wie du die 3 Ebenen eines jeden statistischen Tests systematisch interpretierst.

Ein Tipp:

Lies die einzelnen Kapitel dieses Artikels in der vorgeschlagenen Reihenfolge und springe nicht von Thema zu Thema.

In den ersten Kapiteln werden wir dir erst einmal ein paar grundlegende statistische Begriffe und die Logik des statistischen Testens erklären.

Diese Kapitel sind zwar etwas nervig, aber unbedingt notwendig für die korrekte Interpretation deiner Studienergebnisse.

Artikel in dieser Reihe

Die Grundlagen statistischen Testens in der Medizin: Eine leicht verständliche Erklärung von p-Wert, Effektstärke und Hypothesen.
Stichprobe oder Population? Wo ist der Unterschied?
Null- und Alternativhypothese – die Grundlage deiner Studie
Fehler 1. und 2. Art und die Sache mit der Wahrscheinlichkeit
Die Testlogik und der p-Wert
Das Problem der Stichprobengröße
So beurteilst du deine Studienergebnisse
Die „optimale“ Stichprobengröße? Ein Fall für die Fallzahlschätzung!

Artikel in dieser Reihe

Die Grundlagen statistischen Testens in der Medizin: Eine leicht verständliche Erklärung von p-Wert, Effektstärke und Hypothesen.
Stichprobe oder Population? Wo ist der Unterschied?
Null- und Alternativhypothese – die Grundlage deiner Studie
Fehler 1. und 2. Art und die Sache mit der Wahrscheinlichkeit
Die Testlogik und der p-Wert
Das Problem der Stichprobengröße
So beurteilst du deine Studienergebnisse
Die „optimale“ Stichprobengröße? Ein Fall für die Fallzahlschätzung!

Unser Studienbeispiel – für dich zum Mitlernen und Verstehen

Stell dir vor, du möchtest anhand eines statistischen Tests (also inferenzstatistisch) untersuchen, ob Männer in Deutschland im Schnitt häufiger pro Monat zum Arzt gehen als Frauen.

Zu diesem Zweck erhebst du nun zufällig eine Stichprobe von 50 Männern und 50 Frauen aus Deutschland (wir werden später noch genauer auf die Wahl der Stichprobengröße eingehen).

Anschließend fragst du jede Person aus deiner Stichprobe, wie oft sie pro Monat den Arzt aufsucht. Direkt danach berechnest du getrennt für Männer und Frauen den zugehörigen Mittelwert, also die durchschnittliche Anzahl der Arztbesuche pro Monat.

Diese beiden Mittelwerte bezeichnen wir im Folgenden als M₁ (Mittelwert der Männer) und M₂ (Mittelwert der Frauen).

Du erhältst die folgenden (natürlich total fiktiven Werte):

M₁= 3.2

M₂= 2.5

Die 50 Männer deiner Stichprobe gehen also durchschnittlich 3.2 Mal pro Monat zum Arzt, die 50 Frauen deiner Stichprobe durchschnittlich 2.5 Mal.

Oder anders formuliert:

Der Mittelwertsunterschied zwischen den Männern und Frauen deiner Stichprobe ist M₁ – M₂ = 0.7.

Du siehst also ganz klar: Männer haben im Mittel 0.7 Arztbesuche mehr pro Monat als Frauen.

Bingo, Hypothese bestätigt!

Oder nicht?

Das lernst du im nächsten Artikel.

Stichprobe oder Population? Wo ist der Unterschied?

von Dr. Robert Pagel | Sep 13, 2023 | Statistik

Stichprobe oder Population? Wo ist der Unterschied?

Artikel in dieser Reihe

Die wichtigste Unterscheidung, die man bei statistischen Tests immer im Hinterkopf haben sollte, ist die zwischen Population und Stichprobe.

Natürlich möchtest du im eben entwickelten Beispiel nicht wissen, ob die Männer deiner Stichprobe häufiger zum Arzt gehen als die Frauen deiner Stichprobe. Um diese Frage zu beantworten bräuchtest du keinen statistischen Test, sondern du kannst ja unmittelbar sehen, dass M₁ größer ist als M₂.

Deine Untersuchungsfrage bezieht sich also nicht auf die erhobene Stichprobe, sondern auf die zugehörige Population, aus der diese Stichprobe stammt.

Du möchtest wissen, ob Männer in Deutschland häufiger pro Monat einen Arzt aufsuchen als Frauen und gemeint ist damit, dass die Gesamtheit der Männer in Deutschland im Schnitt häufiger einen Arzt aufsucht als die Gesamtheit der Frauen in Deutschland.

Da du nun aber natürlich nicht die ganze Population (also sämtliche Männer und sämtliche Frauen aus Deutschland) untersuchen kannst, ziehst du eben zufällig aus dieser Population eine Stichprobe.

Das tust du in der Hoffnung anhand deiner Stichprobe Rückschlüsse auf die Population ziehen zu können (deshalb heißt das Ganze dann auch „Inferenzstatistik“).

Um diesen extrem wichtigen Unterschied (der auch nicht selten für Verwirrung und Ungereimtheiten in der Interpretation von Untersuchungsergebnissen sorgt) dauerhaft und sichtbar deutlich zu machen, ist es sinnvoll statistische Parameter (wie etwa den Mittelwert, die Standardabweichung oder auch die Korrelation), die sich sowohl auf die Stichprobe als auch auf die Population beziehen können, unterschiedlich zu kennzeichnen.

So kennzeichnen wir Parameter der Population und der Stichprobe:

So verwendet man für statistische Parameter, die sich auf die Stichprobe beziehen, lateinische Buchstaben wie beispielsweise M für den Mittelwert, S für die Standardabweichung oder r für die Korrelation zwischen zwei Variablen.

Meint man hingegen statistische Parameter, die sich auf die gesamte Population beziehen, dann bezeichnet man diese in der Regel mit griechischen Buchstaben wie μ für den Mittelwert der gesamten Population, σ für die Standardabweichung der gesamten Population und ρ für die Korrelation zweier Variablen innerhalb der gesamten Population.

Du kannst hier gut sehen, wie wichtig und nützlich solche unterschiedlichen Notationen sind, denn wenn man einfach nur von „Mittelwert“ oder „Standardabweichung“ reden würde, dann ist ohne Weiteres natürlich nicht klar, welches der beiden Konzepte (Stichproben- oder Populationsebene) denn nun gemeint ist!

Anhand unseres einfachen Beispiels siehst du wahrscheinlich sofort, dass:

die beiden Stichprobenmittelwerte M₁ und M₂ natürlich davon abhängig sind, welche konkrete Stichprobe man gezogen hat (also welche 50 Frauen und welche 50 Männer aus der gesamten Population, denn auch bei Zufallsziehungen kann das ganz schön variieren!)
es ziemlich wahrscheinlich ist, dass man bei einer weiteren zufällig gezogenen Stichprobe von 50 Männern und 50 Frauen ziemlich sicher andere Stichprobenmittelwerte bekommen würde (wie sehr anders weiß man natürlich nicht)
in der Regel die erhobenen Stichprobenmittelwerte M₁ und M₂nicht identisch den Mittelwerten der gesamten Population μ₁ und μ₂ sein werden (also den Mittelwerten von allen Männern bzw. Frauen aus Deutschland). Das folgt aus den ersten beiden Punkten.

Diese 3 Punkte werden für das weitere Verständnis wichtig sein!

Sie erklären dir auch, warum wir in verschiedenen Publikationen, die die gleiche Forschungsfrage untersuchen, abweichende Ergebnisse bekommen können.

Jetzt, wo das geklärt ist, geht es direkt weiter mit den Hypothesen, der Grundlage deines statistischen Tests.

Null- und Alternativhypothese – die Grundlage deiner Studie

von Dr. Robert Pagel | Sep 13, 2023 | Statistik

Null- und Alternativhypothese – die Grundlage deiner Studie

Artikel in dieser Reihe

Bei allen statistischen Tests gibt es immer eine Nullhypothese (kurz: H0) und eine Alternativhypothese (kurz: H1).

Ganz wichtig zu wissen:

Null- und Alternativhypothese beziehen sich immer auf die Populationsebene und nicht auf die Stichprobenebene.

Wie schon im ersten Artikel gesagt bräuchte man ja überhaupt keinen Test, wenn sich die Hypothesen auf die Stichprobenebene beziehen würden (was wäre das Leben dann einfach).

Die H0 und die H1 machen jeweils eine Aussage über statistische Parameter der Populationsebene, wobei sich diese Aussagen gegenseitig ausschließen.

Die Aussagen der H0 und der H1 können also nicht gleichzeitig wahr sein!

In unserem Beispiel lautet die H0, dass Männer und Frauen im Schnitt gleich häufig pro Monat den Arzt aufsuchen (und gemeint ist natürlich die Populationsebene).

Die H1 hingegen besagt, dass Männer häufiger pro Monat den Arzt aufsuchen (und gemeint ist hier natürlich ebenfalls die Populationsebene).

Du siehst, beide Hypothesen können nicht zusammen wahr sein!

Man könnte die beiden Hypothesen für unser Beispiel kurz auch folgendermaßen hinschreiben:

H0: μ₁ = μ₂

H1: μ₁ > μ₂

Die Alternativhypothese H1 kann dabei allgemein gerichtet oder ungerichtet sein. In unserem Beispiel ist sie gerichtet, da quasi die „Richtung“ des Unterschieds zwischen Männern und Frauen angegeben wird (μ₁ > μ₂₎.

Eine ungerichtete Alternativhypothese würde in unserem Beispiel besagen, dass sich Männer und Frauen im Schnitt darin unterscheiden, wie häufig sie pro Monat den Arzt aufsuchen, aber nicht, wie genau der Unterschied aussieht.

Wäre das die Alternativhypothese für unser Beispiel, dann könnte man diese kurz auch so schreiben:

H1: μ₁ ≠ μ₂

Aber müssen wir nur Hypothesen formulieren und dann geht es direkt los mit dem Testen?

Leider nein, das wäre ja zu schön. Dafür brauchen wir noch etwas mehr.

Weiter geht es daher mit dem Fehler 1. und 2. Art.

Fehler 1. und 2. Art und die Sache mit der Wahrscheinlichkeit

von Dr. Robert Pagel | Sep 13, 2023 | Statistik

Fehler 1. und 2. Art und die Sache mit der Wahrscheinlichkeit

Artikel in dieser Reihe

Es gibt ein paar Dinge, die du dir am besten irgendwo hin tätowierst, damit du sie nicht vergisst:

Ganz wichtig zu verstehen ist, dass du mit statistischen Tests nie (NIE!) beweisen kannst, ob denn nun deine H0 oder deine H1 ohne jeglichen Zweifel richtig ist.

Werbeversprechen wie: „Klinische Studien beweisen, dass unser Make-Up Akne reduziert“ sind falsch und ärgern mich so sehr, dass ich das Produkt garantiert nicht kaufe.

Ein statistischer Test erlaubt es dir stattdessen, dich aufgrund von Wahrscheinlichkeitsüberlegungen (mehr dazu gleich) für oder gegen die H1 zu entscheiden.

Nicht mehr und nicht weniger.

Eine erlaubte Aussage wäre daher folgende: „Klinische Studien sprechen dafür, dass unser Make-Up Akne reduziert.“

Um das besser zu verstehen, zeigen wir dir im Folgenden, welche (Fehl)-Entscheidungen im Rahmen eines statistischen Tests möglich sind.

Insgesamt gibt es 4 mögliche Szenarien, die bei einem statistischen Test eintreten können:

Wenn die H0 richtig ist, kannst du dich (korrekterweise) auch für die H0 entscheiden.
Wenn die H0 richtig ist, kannst du dich aber auch (fälschlicherweise) für die H1 entscheiden. Diese Fehlentscheidung nennt man den Fehler 1. Art.
Wenn hingegen die H1 richtig ist, kannst du dich (korrekterweise) auch für die H1 entscheiden.
Wenn die H1 richtig ist, kannst du dich wiederum aber auch (fälschlicherweise) für die H0 entscheiden. Diese Fehlentscheidung nennt man den Fehler 2. Art.

Hier das Ganze mal als Übersicht:


		Wahr ist
Entscheidung für		H0	H1
	H0	Korrekt	Fehler 2. Art
	H1	Fehler 1. Art	Korrekt

Hier das Ganze mal als Übersicht:

		Wahr ist
Entscheidung für		H0	H1
	H0	Korrekt	Fehler 2. Art
	H1	Fehler 1. Art	Korrekt

Das Problem ist also, dass du niemals wissen kannst, ob nun die H0 oder die H1 wahr ist, und daher kann deine Entscheidung eben auch falsch sein.

In unserem Beispiel würdest du also den Fehler 1. Art begehen, wenn du dich anhand des Tests dafür entscheidest, dass Männer im Schnitt häufiger zum Arzt gehen als Frauen (Entscheidung für H1), obwohl sich Männer und Frauen darin eigentlich nicht unterscheiden (die H0 gilt).

Den Fehler 2. Art würdest du begehen, wenn du dich dafür entscheiden würdest, dass sich Männer und Frauen nicht darin unterscheiden, wie oft sie im Schnitt zum Arzt gehen (Entscheidung für H0), obwohl die Männer eigentlich häufiger im Schnitt den Arzt aufsuchen (die H1 gilt).

Das Interessante daran ist:

Mit jeder der vier Entscheidungsmöglichkeiten ist eine bestimmte Wahrscheinlichkeit verknüpft.

Und da diese Wahrscheinlichkeiten für die Logik statistischer Tests enorm wichtig sind, bekommen auch sie wieder eine eigene Bezeichnung:

die Wahrscheinlichkeit, den Fehler 1. Art zu begehen bezeichnet man mit α

die Wahrscheinlichkeit, den Fehler 2. Art zu begehen, mit β.

		Wahr ist
Entscheidung für		H0	H1
	H0	1 – α	β
	H1	α	1 – β

		Wahr ist
Entscheidung für		H0	H1
	H0	1 – α	β
	H1	α	1 – β

Bitte nicht verwechseln: In der oberen Tabelle geht es um Entscheidungen, in der unteren Tabelle um die zugehörigen Wahrscheinlichkeiten!

Wie du im nächsten Kapitel sehen wirst, können wir das α festlegen, und somit die Wahrscheinlichkeit für den Fehler 1. Art kontrollieren. Für das β ist die Lage leider etwas komplizierter. Im letzten Kapitel werden wir dir aber eine Möglichkeit vorstellen, die Wahrscheinlichkeit für den Fehler 2. Art zumindest in Teilen zu kontrollieren.

Wichtig ist außerdem, dass α und β nicht unabhängig voneinander sind:

Je kleiner in einer konkreten Testsituation dein α ist, umso größer wird dein β sein. Und je größer dein α ist, umso kleiner wird dein β sein.

Das ist in gewisser Weise ein Dilemma, von dem du schon mal gehört haben solltest. Wir werden später auf diesen Punkt zurückkommen.

Fazit:

In diesem Kapitel hast du gelernt, dass es im Rahmen des statistischen Testens um eine Entscheidung für oder gegen die Nullhypothese/die Alternativhypothese geht.

Diese Entscheidung kann falsch oder richtig sein, da wir die Wahrheit nicht kennen. Es ist daher nicht möglich, mit einem Test Hypothesen zu beweisen und definitive Aussagen zu tätigen.

Wie du dir natürlich auch denken kann, ist unsere Entscheidung nicht vollkommen willkürlich. Stattdessen entscheiden wir uns aus guten Gründen für die Null- oder Alternativhypothese (dazu mehr in den folgenden Kapiteln).

Behalte dies im Rahmen deiner Auswertung immer im Hinterkopf – dann wird dir auch die Diskussion deiner Ergebnisse im Licht der Literatur viel leichter fallen.

Nun, wo du die 4 möglichen Szenarien sowie die damit verbunden Fehlerarten und Wahrscheinlichkeiten kennst, geht es direkt weiter zur Testlogik.

Die Testlogik und der p-Wert

von Dr. Robert Pagel | Sep 13, 2023 | Statistik

Die Testlogik und der p-Wert

Artikel in dieser Reihe

Was passiert nun genau bei einem statistischen Test und wie soll einem das Ergebnis helfen, eine Entscheidung zwischen H0 und H1 zu treffen?

Vereinfacht gesagt gibt dir das Ergebnis eines statistischen Tests an, wie wahrscheinlich es ist, dass man die Daten, die man erhoben hat, bekommt, wenn die H0 richtig wäre.

Hier noch mal einfacher ausgedrückt:

Man tut also so, als ob die H0 richtig wäre und schaut sich dann an, wie wahrscheinlich es ist, dass man die Daten, die man erhoben hat unter dieser Bedingung bekommen würde.

Und jetzt nochmal ganz konkret:

In unserem Beispiel würden wir also als Testergebnis die Wahrscheinlichkeit dafür bekommen, dass die Differenz zwischen dem Mittelwert einer zufällig gezogenen Stichprobe von 50 Männern und dem Mittelwert einer zufällig gezogenen Stichprobe von 50 Frauen genau M₁ – M₂= 3.2 – 2.5 = 0.7 ist, wenn sich Frauen und Männer auf Populationsebene eigentlich nicht darin unterscheiden, wie oft sie im Schnitt pro Monat den Arzt aufsuchen (also wenn die H0 richtig wäre).

Der letzte Satz ist eine harte Nuss, lies ihn am besten nochmal, um ganz sicher zu gehen, dass du ihn verstanden hast.

Erinnern wir uns noch mal kurz an die 3 Punkte aus Kapitel 2:

Hier hast du gelernt, dass es je nach gezogener Stichprobe zu sehr unterschiedlichen Mittelwerten kommen kann und dass diese Mittelwerte sich deutlich von den Mittelwerten auf Populationsebene (die wir ja nicht kennen) unterscheiden können.

Es ist somit nicht ausgeschlossen, dass man eine Stichprobenmittelwertsdifferenz von M₁ – M₂ = 0.7 bekommt, obwohl sich auf Populationsebene Männer und Frauen nicht unterscheiden (also die H0 gilt).

So können wir etwa ungünstigerweise ein paar Männer in unserer Stichprobe haben, die häufiger zum Arzt gehen als die restlichen Männer der Population (oder ein paar Frauen, die seltener zum Arzt gehen als die restlichen Frauen der Population).

Allerdings wird das natürlich umso unwahrscheinlicher, je größer die erhobene Stichprobenmittelwertsdifferenz tatsächlich ist.

Wenn die H0 richtig wäre, sich Männer und Frauen (wiederum: die Population!) also nicht unterscheiden, ist es natürlich unwahrscheinlicher, dass man eine Mittelwertsdifferenz von 15 bekommt, als eine Differenz von 1, 0.7 oder 0.1 usw. Aber ausgeschlossen ist es eben nicht.

Woran erkennen wir nun also, woran wir sind?

Dafür nutzen wir den p-Wert!

Der p-Wert und die Entscheidung

Der Clou ist nun, dass sich für jede mögliche Stichprobenmittelwertsdifferenz in unserem Beispiel berechnen lässt, wie wahrscheinlich es ist, dass diese auftritt, wenn die H0 richtig wäre.

Diese Wahrscheinlichkeit ist nichts anderes als der „berühmt-berüchtigte“ p-Wert, von dem du sicher schon gehört hast. Und genau dieser p-Wert dient uns letztendlich als Kriterium dafür, ob wir uns für die H0 oder für die H1 entscheiden sollten.

Es gilt: Je geringer der p-Wert ist, umso „unplausibler“ ist die H0.

Wenn wir in unserem Beispiel etwa eine Stichprobenmittelwertsdifferenz von 15 erhoben hätten und wir als Ergebnis unseres Tests einen p-Wert von 0.001 bekommen hätten, dann würde es ziemlich schwer werden, uns selbst oder andere davon zu überzeugen, dass die H0 richtig ist.

Denn in diesem Fall läge die Wahrscheinlichkeit, dass man diese Differenz bekommt, wenn die H0 richtig wäre, ja nur bei 0.1%, und wäre somit wirklich sehr klein. Somit sollten wir uns besser für die H1 entscheiden!

Wir wissen somit natürlich auch (und hier kommt das Vier-Felder-Schema aus Kapitel 4 wieder ins Spiel), dass wenn wir uns in diesem Fall für die H1 entscheiden, die Wahrscheinlichkeit, dass wir uns fälschlicherweise für die H1 entscheiden (also den Fehler 1. Art begehen) natürlich ebenfalls 0.1% beträgt.

Der p-Wert ist ja gerade die Wahrscheinlichkeit, dass wir die Mittelwertsdifferenz bekommen, die wir tatsächlich erhoben haben, wenn die H0 richtig wäre.

Es stellt sich also nur noch die Frage, wo genau wir die Grenze für unsere Entscheidung für oder gegen die H0 setzen sollten.

Einerseits sollte der p-Wert, ab dem wir uns für die H1 entscheiden, natürlich nicht „zu groß“ sein, weil dann ja auch die Wahrscheinlichkeit, sich fälschlicherweise für die H1 zu entscheiden (den Fehler 1. Art zu begehen) „zu groß“ wäre.

Andererseits sollte der p-Wert, ab dem wir uns für die H1 entscheiden, natürlich auch nicht „zu klein“ sein. Dann würden wir zwar die Wahrscheinlichkeit für einen Fehler 1. Art ebenfalls sehr gering halten, allerdings würden wir uns dann auch nur in „sehr eindeutigen“ Fällen gegen die H0 entscheiden. Man spricht in diesem Fall auch von „konservativem Testen“.

Gerade in der Medizin sind die Effekte oder Unterschiede, die man mit seiner Untersuchung aufdecken möchte, aber oftmals klein bis mittelgroß (auch moderat genannt) und diese Effekte würden einem dann „durch die Lappen“ gehen, da man sich eben „zu konservativ“ verhält, also einfach zu streng testet.

Zudem können gerade in der Medizin die beiden Fehlentscheidungen (Fehler 1. Art und Fehler 2. Art) mit unterschiedlich schwerwiegenden praktischen Konsequenzen einhergehen:

Testest du beispielsweise, ob ein neu entwickeltes Medikament wirksamer ist als das herkömmlich eingesetzte und du weißt außerdem, dass das neue Medikament mit deutlich schwereren Nebenwirkungen einhergeht, dann ist der Fehler 1. Art (du entscheidest dich dafür, dass das neue Medikament wirksamer ist, obwohl dem nicht so ist) natürlich schwerwiegender als der Fehler 2. Art (du entscheidest dich dafür, dass beide gleich wirksam sind, obwohl das neue Medikament wirksamer ist).

Hier kommt somit ein weiterer wichtiger Punkt ins Spiel, nämlich die Eigenverantwortung der Forscherin bzw. des Forschers (die Statistikprogramme können einem ja nicht alle Entscheidungen abnehmen).

Du solltest also vor deiner Untersuchung festlegen, wie groß die Wahrscheinlichkeit für den Fehler 1. Art bei deinem Test denn maximal sein soll:

Diese Grenze bezeichnet man auch als α oder α-Niveau (siehe wieder das Vier-Felder-Schema in Artikel 4). In der Regel wird das α-Niveau per Konvention auf α = .05 festgesetzt, es kann aber auch Fälle geben, in denen man mit guten Gründen ein anderes α-Niveau wählen sollte (wie etwa in dem obigen Beispiel mit den neuen Medikament, das mehr Nebenwirkungen hat, als die Standardtherapie).

Wenn das α von dir festgelegt wurde, dann ist aufgrund der eben erläuterten Testlogik damit auch deine „Entscheidungsstrategie“ festgelegt:

Ist der p-Wert aus deinem Test kleiner (oder gleich) dem vorher festgelegten α, dann solltest du dich gegen die H0 entscheiden.
Ist der p-Wert aus deinem Test größer als das vorher festgelegte α, dann solltest du dich für die H0 entscheiden.

Hast du dein α-Niveau auf .05 gesetzt, dann weißt du, dass du dich mit dieser Entscheidungsstrategie unter der Annahme, dass die die H0 richtig ist in 95% aller Fälle auch richtigerweise für die H0 entscheidest und nur in 5% aller Fälle den Fehler 1. Art begehst.

Ist p ≤ α, dann spricht man auch von einem „signifikanten Ergebnis auf dem Niveau α“ (das hast du bestimmt auch schon einmal gehört) oder kurz von einem „signifikanten Ergebnis“.

Wichtiger Hinweis: Wenn du (was in der Medizin häufig passiert) mehrere Tests auf dem gleichen Datensatz durchführst, dann kommt es zu einem ungünstigen Effekt, der sogenannten α-Inflation. Was genau das ist und was du dagegen tun kannst erfährst du in unserem Glossar unter „multiplem Testen“ und „α-Inflation“.

Wie interpretierst du nun deine Testergebnisse?

Wie schon gesagt, egal wie das Ergebnis ausfällt (Entscheidung für oder gegen die H0), ein statistischer Test kann nicht „beweisen“, ob nun die H0 oder die H1 richtig ist.

Du entscheidest dich anhand deines Testergebnisses (also mit guten Gründen!) dafür, anzunehmen, dass entweder die H0 oder die H1 richtig ist.

Aber du weißt natürlich auch (siehe wieder das Vier-Felder-Schema in Artikel 4), dass du mit deiner Entscheidung möglicherweise falsch liegen kannst, da du ja den Fehler 1. oder 2. Art begehen kannst.

Und wie schon erklärt, weißt du bei einem signifikanten Ergebnis ebenfalls, dass die Wahrscheinlichkeit, dass du dich fälschlicherweise für die H1 entscheidest (Fehler 1. Art) nicht größer ist als das vorher von dir festgelegte α, also in der Regel 5%.

Aber Vorsicht!

Bei einem nicht-signifikanten Ergebnis ist die Lage etwas komplizierter!

Wenn du dich für die H0 entscheidest, weißt du zwar, dass die Wahrscheinlichkeit dafür, dass du deine erhobenen Daten bekommen hättest, wenn die H0 richtig wäre, größer ist als das vorher festgelegte α (das ist die oben erklärte Logik des Tests und der Grund, warum du dich für die H0 entscheidest).

Allerdings kannst du hier nicht ohne Weiteres bestimmen, wie hoch die Wahrscheinlichkeit dafür ist, dass du dich fälschlicherweise für die H0 entscheidest (also den Fehler 2. Art begehst).

Das ist blöd, denn wenn diese Wahrscheinlichkeit β recht hoch wäre, sagen wir beispielsweise 50%, dann wärst du in einer recht ungünstigen Position.

Denn das würde einerseits bedeuten, dass du dich aufgrund der Testlogik für die H0 entscheiden müsstest, da ja p > α.

Andererseits wüsstest du aber, dass du dich bei dieser Entscheidung für die H0 mit einer Wahrscheinlichkeit von 50% irren würdest.

Doch, wie das immer so ist, gibt es glücklicherweise eine Möglichkeit, Tests so zu konstruieren, dass du auch die Wahrscheinlichkeit β in gewisser Weise kontrollieren kannst.

Um diese Möglichkeit nachvollziehbar erklären zu können, müssen wir uns aber vorher noch mit einigen weiteren Feinheiten statistischer Tests beschäftigen (keine Sorge, bald hast du es geschafft).

« Ältere Einträge