Bonferroni Korrektur

Die Bonferroni Korrektur ist eine Methode zur Kontrolle des α-Fehlers (Verhinderung von α-Fehler-Inflation) beim Durchführen multipler Signifikanztests. Um die Wahrscheinlichkeit bei n Signifikanztests einen Fehler 1. Art (siehe α-Niveau) zu machen unter 5% zu halten, muss der p-Wert eines einzelnen Tests ≤  α/n liegen, um als signifikant zu gelten. Eine solche Korrektur ist v. a. dann notwendig, wenn das Vorgehen nicht hypothesengeleitet ist, kann aber bei einer hohen Anzahl von Tests zu streng sein.

Was bedeutet das?

Jeder Test, den wir rechnen hat die Wahrscheinlichkeit von 5 % signifikant zu werden, OHNE dass das ein wirklicher Unterschied zwischen den zu vergleichenden Gruppen besteht. Wir nehmen also unsere Testhypothese (H1) an, obwohl die Nullhypothese (H0) gilt. Diesen Fehler nennt man Fehler 1. Art oder auch α-Fehler.

Wenn ich nun also 3 Tests rechne, verdreifacht sich die Wahrscheinlichkeit den α-Fehler zu machen, er liegt nun also schon bei 15 % (1- 0.95 hoch 3 = 14.3 %). Wenn ich also sehr viele Tests einfach mal so rechne, entsteht die sogenannte α-Fehler-Inflation.

Und das ist gerade im Bereich des explorativen Testens gefährlich, weil ich innerhalb meiner Daten alles mit jedem vergleiche und – wen wundert’s – irgendwann schon irgendetwas Signifikantes herausbekomme. Würde ich also in dieser Art vorgehen, und dann meine Effekte unkritisch interpretieren (was sehr oft gemacht wird), dann ist die Wahrscheinlichkeit sehr hoch, dass die Ergebnisse keine relevante Bedeutung haben, weil sie auf die α-Fehler-Inflation zurückzuführen sind.

Was also tun?

Wenn ich explorativ teste, also keine zugrunde liegende Hypothese teste, dann muss das α-Niveau unbedingt für multiple Vergleiche korrigiert werden. Das kann ich machen, in dem ich den p-Wert, ab dem mein Ergebnis gängigerweise als signifikant gelabelt wird (also p = 0.05) durch die Anzahl der gerechneten Tests teile. Das nennt man dann z. B. die Bonferroni-Korrektur. Bei 3 Tests wäre der neue kritische p-Wert dann 0.05 / 3 = 0.0167. Alle Ergebnisse mit einem p-Wert ≤ 0.0167 wären dann als signifikant anzusehen, alles darüber nicht. Diese Korrektur ist allerdings sehr konservativ, also sehr streng.

Das beste Vorgehen ist also immer schon vor dem Testen Hypothesen zu generieren, in dem die Literatur intensiv gelesen wird und zu erwartende Effekte definiert werden.

Konfundierende Variablen

Die Konfundierende Variable, auch Störvariable genannt, ist eine Variable, welche neben der von uns erhobenen unabhängigen Variable die abhängige Variable beeinflusst (unabhängig davon, ob diese Störvariable erhoben wurde oder nicht).

Eine Möglichkeit Störvariablen „auszuschalten“ wäre es diese mit zu erheben und dann deren Einfluss innerhalb der statistischen Analysen zu kontrollieren (sofern möglich). Da es aber in der Praxis unmöglich ist, alle Störvariablen zu kennen (geschweige denn zu erheben) empfiehlt es sich in experimentellen Studiendesigns die Zuteilung zu den Experimentalbedingungen randomisiert (also zufällig) vorzunehmen und möglichst große Gruppe zu erheben, da sich Störvariablen bei ausreichend großen Gruppen mit einiger Wahrscheinlichkeit auf alle Experimentalgruppen gleichmäßig verteilen und während der Analyse „rausmitteln“.

Wichtig: Berücksichtigt das Studiendesign nicht die Konfundierung durch mögliche Störvariablen, wird die Datenanalyse und die Diskussion der Studienergebnisse deutlich erschwert! Es ist daher ratsam viel Zeit in die Studienplanung und Erhebung der Daten zu investieren.

Maße der zentralen Tendenz

Die Maße der zentralen Tendenz beschreiben die Lage der Häufigkeitsverteilung einer gemessenen Variablen. Die gängigsten Maße sind dabei das arithmetische Mittel (der Mittelwert), der Median und der Modus.

Der Mittelwert ist  der Durchschnitt aller erhobenen Werte. Er wird berechnet, in dem man alle gemessenen Werte aufsummiert und dann durch deren Anzahl teilt. Bei großen Stichproben ist der Mittelwert das Lagemaß der Wahl. Bei kleineren Stichproben ist der Mittelwert allerdings anfällig für Extremwerte (Ausreißer), die den Mittelwert stark verzerren können.

In einem solchen Fall bieten sich dann der Median oder der Modus an:

Der Median zeigt den Wert innerhalb einer Verteilung an, bei dem 50% der gemessenen Werte unter und die anderen 50% über dem Median liegen. Er wird ermittelt in dem alle gemessenen Werte der Stichprobe der Größe nach sortiert werden und dann genau in der Mitte der Rangfolge ein Schnitt gemacht wird. Der Wert, der dort liegt ist der Median. Eine Teilung der sortierten Stichprobe in zwei gleichgroße Hälften heißt daher auch Mediansplit.

Der Median hat den Vorteil dass ein Ausreißer nur einer von vielen Werten innerhalb einer gleichberechtigten Rangfolge ist, er kann also nicht durch den Ausreißer verzerrt werden. Ein aussagekräftiger Median benötigt allerdings ebenfalls eine nicht allzukleine Stichprobengröße.

Der Modus ermittelt den Wert innerhalb der Stichprobe, der am häufigsten vorkommt. Er wird selten berichtet und ist insbesondere dann wenig aussagekräftig, wenn es viele Werte innerhalb der Verteilung gibt, die gleich oft vorkommen.

 

R Lern die Basics Onlinekurs

Zentraler Grenzwertsatz

Der zentraler Grenzwertsatz besagt, dass mit zunehmender Stichprobengröße (bei wenig Ausreißern innerhalb der Stichprobe: ab N > 30) die Stichprobenkennwertverteilung des zu untersuchenden Merkmals der Normalverteilung folgt.

Das verstehst du nicht? Kein Problem:

Stell dir vor, du ziehst aus allen weltweit verfügbaren Personen 5000x eine Zufallsstichprobe der Größe N, berechnest nach dem ersten Ziehen den Mittelwert der Stichprobe, legst alle gezogenen Probanden zurück und ziehst eine weitere Stichprobe aus der Gesamtpopulation. Dann  berechnest du wieder den Mittelwert, legst die gezogene Stichprobe zurück und das weitere 4998x.

Würdest du dann alle berechneten Stichprobenmittelwerte in einem Verteilungsdiagramm plotten, würdest du die Form einer Normalverteilung erhalten – egal ob das untersuchte Merkmal innerhalb der Gesamtpopulation normalverteilt ist oder nicht, die Verteilung der berechneten Stichproben-Mittelwerte wäre es.

Dabei gelten zwei Bedingungen:

  1. Je größer das N pro gezogener Stichprobe, desto schneller wird die Normalverteilung des Stichprobenkennwertes erreicht (es sind also nicht immer 5000 Ziehungen notwendig, sondern auch weniger).
  2. Je mehr die Verteilung des initial untersuchten Merkmals innerhalb der Gesamtpopulation der Normalverteilung gleicht, desto kleiner darf die Größe der gezogenen Stichprobe sein, um eine Normalverteilung des Stichprobenkennwertes zu erhalten.

 

Der Clou an der Sache ist der: Der Mittelwert der Stichprobenkennwertverteilung ist mit sehr hoher Wahrscheinlichkeit gleich oder sehr ähnlich dem wahren Mittelwert der Gesamtpopulation.

Können wir daraus schließen, dass wir bei einer Stichprobe mit N > 30 automatisch von einer Normalverteilung ausgehen dürfen und mit dem Mittelwert der Stichprobe den wahren Mittelwert der Gesamtpopulation errechnen?

Nein, das wäre falsch!

Aber, was wir machen können, ist ein Verfahren namens Bootstrapping in SPSS zu aktivieren, dass ähnlich zu dem Vorgehen oben, Unterstichproben aus der von uns untersuchten Stichprobe zieht und mit Hilfe eines 95%-Konfidenzintervalls angibt, in welchem Bereich sich der wahre Mittelwert der Gesamtpopulation befindet. Je schmaler dieser Bereich ist, desto repräsentativer ist unsere Stichprobe und desto aussagekräftiger ist unsere Untersuchung.

Lade dir hier die Formelsammlung für deinen Bland-Altman-Plot herunter

Melde dich für meinen Newsletter an und erhalte sofort das PDF!

You have Successfully Subscribed!

10 % Rabatt auf unsereWorkshops & Kurse im Onlineshop!

Trage dich hier für Dr. Ortmanns beste Maildizin ein und erhalte regelmäßige Rabatte, Tipps und Coachinginhalte für deine empirische Promotion

You have Successfully Subscribed!

Lade dir hier die Checkliste für deinen Methodenteil herunter

Melde dich für meinen Newsletter an und erhalte sofort das PDF!

You have Successfully Subscribed!


Jetzt 10 % Rabatt auf alle

Workshops & Kurse sichern!

You have Successfully Subscribed!

Downloade dir hier das Flowchart für deine ANOVA

Melde dich für meinen Newsletter an und erhalte sofort das PDF!

You have Successfully Subscribed!

Lade dir hier die Vorlage für den Aufbau deines Datensatzes herunter

Melde dich für meinen Newsletter an und erhalte sofort die Excel-Vorlage!

You have Successfully Subscribed!