Die Bonferroni Korrektur ist eine Methode zur Kontrolle des α-Fehlers (Verhinderung von α-Fehler-Inflation) beim Durchführen multipler Signifikanztests. Um die Wahrscheinlichkeit bei n Signifikanztests einen Fehler 1. Art (siehe α-Niveau) zu machen unter 5% zu halten, muss der p-Wert eines einzelnen Tests ≤ α/n liegen, um als signifikant zu gelten. Eine solche Korrektur ist v. a. dann notwendig, wenn das Vorgehen nicht hypothesengeleitet ist, kann aber bei einer hohen Anzahl von Tests zu streng sein.
Was bedeutet das?
Jeder Test, den wir rechnen hat die Wahrscheinlichkeit von 5 % signifikant zu werden, OHNE dass das ein wirklicher Unterschied zwischen den zu vergleichenden Gruppen besteht. Wir nehmen also unsere Testhypothese (H1) an, obwohl die Nullhypothese (H0) gilt. Diesen Fehler nennt man Fehler 1. Art oder auch α-Fehler.
Wenn ich nun also 3 Tests rechne, verdreifacht sich die Wahrscheinlichkeit den α-Fehler zu machen, er liegt nun also schon bei 15 % (1- 0.95 hoch 3 = 14.3 %). Wenn ich also sehr viele Tests einfach mal so rechne, entsteht die sogenannte α-Fehler-Inflation.
Und das ist gerade im Bereich des explorativen Testens gefährlich, weil ich innerhalb meiner Daten alles mit jedem vergleiche und – wen wundert’s – irgendwann schon irgendetwas Signifikantes herausbekomme. Würde ich also in dieser Art vorgehen, und dann meine Effekte unkritisch interpretieren (was sehr oft gemacht wird), dann ist die Wahrscheinlichkeit sehr hoch, dass die Ergebnisse keine relevante Bedeutung haben, weil sie auf die α-Fehler-Inflation zurückzuführen sind.
Was also tun?
Wenn ich explorativ teste, also keine zugrunde liegende Hypothese teste, dann muss das α-Niveau unbedingt für multiple Vergleiche korrigiert werden. Das kann ich machen, in dem ich den p-Wert, ab dem mein Ergebnis gängigerweise als signifikant gelabelt wird (also p = 0.05) durch die Anzahl der gerechneten Tests teile. Das nennt man dann z. B. die Bonferroni-Korrektur. Bei 3 Tests wäre der neue kritische p-Wert dann 0.05 / 3 = 0.0167. Alle Ergebnisse mit einem p-Wert ≤ 0.0167 wären dann als signifikant anzusehen, alles darüber nicht. Diese Korrektur ist allerdings sehr konservativ, also sehr streng.
Das beste Vorgehen ist also immer schon vor dem Testen Hypothesen zu generieren, in dem die Literatur intensiv gelesen wird und zu erwartende Effekte definiert werden.