Bonferroni Korrektur

Die Bonferroni-Korrektur ist eine von vielen möglichen Methoden zur Kontrolle der α-Inflation beim multiplen Testen, also beim Durchführen mehrerer statistischer Tests auf dem gleichen Datensatz.

Die Idee der Bonferroni-Korrektur ist einfach: Der p-Wert, ab dem ein einzelner Test als signifikant gelten soll, wird korrigiert (herabgesetzt) und zwar in dem man die Anzahl der Tests, die insgesamt durchgeführt werden sollen, berücksichtigt.

Um die Wahrscheinlichkeit, bei k statistischen Tests mindestens einmal den Fehler 1. Art zu begehen (die family-wise error rate) unter 5% zu halten, werden nur Testergebnisse als signifikant angesehen, bei denen p ≤ .05/k gilt.

Je mehr Tests wir also durchführen wollen, umso niedriger wird der p-Wert gesetzt, ab dem jeder einzelne Test als signifikant gilt.

Bei 10 Tests mit Bonferroni-Korrektur würde also jeder einzelne Test erst ab einem p-Wert von .05/10 = .005 als signifikant gelten.

Konfundierende Variablen

Die Konfundierende Variable, auch Störvariable genannt, ist eine Variable, welche neben der von uns erhobenen unabhängigen Variable die abhängige Variable beeinflusst (unabhängig davon, ob diese Störvariable erhoben wurde oder nicht).

Eine Möglichkeit Störvariablen „auszuschalten“ wäre es diese mit zu erheben und dann deren Einfluss innerhalb der statistischen Analysen zu kontrollieren (sofern möglich).

Da es aber in der Praxis unmöglich ist, alle Störvariablen zu kennen (geschweige denn zu erheben) empfiehlt es sich in experimentellen Studiendesigns die Zuteilung zu den Experimentalbedingungen randomisiert (also zufällig) vorzunehmen und möglichst große Gruppe zu erheben, da sich Störvariablen bei ausreichend großen Gruppen mit einiger Wahrscheinlichkeit auf alle Experimentalgruppen gleichmäßig verteilen und während der Analyse „rausmitteln“.

Wichtig: Berücksichtigt das Studiendesign nicht die Konfundierung durch mögliche Störvariablen, wird die Datenanalyse und die Diskussion der Studienergebnisse deutlich erschwert! Es ist daher ratsam, viel Zeit in die Studienplanung und Erhebung der Daten zu investieren.

Maße der zentralen Tendenz

Die Maße der zentralen Tendenz beschreiben die Lage der Häufigkeitsverteilung einer gemessenen Variablen. Die gängigsten Maße sind dabei das arithmetische Mittel (der Mittelwert), der Median und der Modus.

Der Mittelwert ist der Durchschnitt aller erhobenen Werte. Er wird berechnet, in dem man alle gemessenen Werte aufsummiert und dann durch deren Anzahl teilt. Bei großen Stichproben ist der Mittelwert das Lagemaß der Wahl. Bei kleineren Stichproben ist der Mittelwert allerdings anfällig für Extremwerte (Ausreißer), die den Mittelwert stark verzerren können.

In einem solchen Fall bieten sich dann der Median oder der Modus an:

Der Median zeigt den Wert innerhalb einer Verteilung an, bei dem 50% der gemessenen Werte unter und die anderen 50% über dem Median liegen. Er wird ermittelt, in dem alle gemessenen Werte der Stichprobe der Größe nach sortiert werden und dann genau in der Mitte der Rangfolge ein Schnitt gemacht wird. Der Wert, der dort liegt ist der Median. Eine Teilung der sortierten Stichprobe in zwei gleich große Hälften heißt daher auch Mediansplit.

Der Median hat den Vorteil, dass ein Ausreißer nur einer von vielen Werten innerhalb einer gleichberechtigten Rangfolge ist, er kann also nicht durch den Ausreißer verzerrt werden. Ein aussagekräftiger Median benötigt allerdings ebenfalls eine nicht allzukleine Stichprobengröße.

Der Modus ermittelt den Wert innerhalb der Stichprobe, der am häufigsten vorkommt. Er wird selten berichtet und ist insbesondere dann wenig aussagekräftig, wenn es viele Werte innerhalb der Verteilung gibt, die gleich oft vorkommen.

 

R Lern die Basics Onlinekurs

P-Wert

Der p-Wert ist letztendlich das Kriterium, nach dem wir uns bei einem statistischen Test entweder für die Null- oder für die Alternativhypothese entscheiden.

Vereinfacht gesprochen gibt der p-Wert die Wahrscheinlichkeit dafür an, dass wir die Daten bzw. die Teststatistik, die wir tatsächlich erhoben haben (z.B. die konkreten Mittelwerte beim t-Test, die konkrete Korrelation beim Korrelationstest, die konkrete Häufigkeitstabelle beim Chi2-Test usw.), erhalten würden, wenn die H0 richtig wäre.

Ist der p-Wert kleiner als das von uns vorher festgelegte α-Niveau (i.d.R. α = .05), dann sollten wir uns gegen die H0 entscheiden, da die Wahrscheinlichkeit, unsere Daten/Teststatistik zu bekommen, wenn die H0 richtig wäre, eben nur sehr gering (kleiner als 5%) ist.

Wenn du mehr über die allgemeine Logik statistischer Tests wissen möchtest, dann schau in unseren Grundlagenartikel zu diesem Thema.

Zentraler Grenzwertsatz

Der zentrale Grenzwertsatz (ZGS) ist ein für das statistische Testen wichtiger Satz, der besagt, dass mit zunehmender Stichprobengröße N die Verteilung des Stichprobenmittelwertes sich einer Normalverteilung annähert, egal wie die zugrundeliegende Variable selbst verteilt ist.

Was bedeutet das?

Stell dir vor, du bist daran interessiert, wie oft die Menschen in Deutschland pro Monat einen Arzt aufsuchen und ziehst jetzt von allen Menschen aus Deutschland sehr oft (z. B. 5000 Mal) eine Zufallstischprobe mit dem Umfang N (mit Zurücklegen).

Dabei erhebst du jedes Mal, wie oft jede der N Personen pro Monat einen Arzt aufgesucht hat und berechnest im nächsten Schritt den Mittelwert der jeweiligen Stichprobe.

Würdest du dann die Verteilung dieser 5000 Mittelwerte grafisch darstellen, dann würde diese (in etwa) einer Normalverteilung folgen.

Dabei würden die Abweichungen von der Normalverteilung umso kleiner werden, je mehr Personen in deinen gezogenen Stichproben enthalten gewesen wären. Es wäre dabei vollkommen egal, wie die Variable selbst (im Beispiel also die Anzahl monatlicher Arztbesuche) verteilt ist!

Warum ist das so wichtig?

Wie du ja weißt, wird bei vielen statistischen Verfahren vorausgesetzt, dass die relevante (abhängige) Variable normalverteilt ist. Für die Praxis besagt der ZGS nun, dass du statistische Tests, in denen letztendlich Mittelwerte miteinander verglichen werden (z. B. ANOVA, t-Test für unabhängige Stichproben), auch dann durchführen kannst, wenn nicht davon auszugehen ist, dass deine relevante Variable normalverteilt ist, da die Mittelwerte mit zunehmender Stichprobengröße N in etwa einer Normalverteilung folgen werden.

Toll, aber wie groß muss die Stichprobe denn dafür sein?

Das kann man leider so pauschal nicht beantworten, da hier mehrere Faktoren zusammenwirken (z. B. wie stark die Verteilung der Variable von einer Normalverteilung abweicht). In den meisten Lehrbüchern lässt sich allerdings die grobe Daumenregel finden, dass ab etwa N > 30 eine Verletzung der Normalverteilungsannahme keine nennenswerten Auswirkungen auf die Testergebnisse hat.

Allerdings sind Patientendaten nicht unbedingt mit denen der gesunden Normalbevölkerung vergleichbar, sondern zeigen häufig deutlich stärkere Abweichungen von der Normalverteilung. Deshalb solltest du die Grenze lieber etwas höher ansetzen oder im Zweifel ein robustes Verfahren wählen.

Lade dir hier die Formelsammlung für deinen Bland-Altman-Plot herunter

Melde dich für meinen Newsletter an und erhalte sofort das PDF!

You have Successfully Subscribed!

10 % Rabatt auf unsereWorkshops & Kurse im Onlineshop!

Trage dich hier für Dr. Ortmanns beste Maildizin ein und erhalte regelmäßige Rabatte, Tipps und Coachinginhalte für deine empirische Promotion

You have Successfully Subscribed!

Lade dir hier die Checkliste für deinen Methodenteil herunter

Melde dich für meinen Newsletter an und erhalte sofort das PDF!

You have Successfully Subscribed!


Jetzt 10 % Rabatt auf alle

Workshops & Kurse sichern!

You have Successfully Subscribed!

Downloade dir hier das Flowchart für deine ANOVA

Melde dich für meinen Newsletter an und erhalte sofort das PDF!

You have Successfully Subscribed!

Lade dir hier die Vorlage für den Aufbau deines Datensatzes herunter

Melde dich für meinen Newsletter an und erhalte sofort die Excel-Vorlage!

You have Successfully Subscribed!