In diesem Artikel erkläre ich dir, was eine ANOVA für Gruppenvergleiche ist und wie du sie berechnest.

Die ANOVA für Gruppenvergleiche ist eines der am häufigsten  verwendeten statistischen Verfahren in der Medizin.

Warum? Weil die Zwischensubjekt-ANOVA, wie sie auch genannt wird, super effektiv ist und dir eine Menge Probleme bei der Berechnung von Gruppenvergleichen erspart.

Gleichzeitig ist die ANOVA  aufgrund der Vielzahl, der zu treffenden Entscheidungen, etwas gefürchtet. Daher gebe ich dir hier eine Schritt-für-Schritt Anleitung mit deren Hilfen du sofort verstehst, wie du die ANOVA für Gruppenvergleiche korrekt berechnest.

 

Im Teil 1 erkläre ich dir die Begriffe und die zugrunde liegende Logik der ANOVA für Gruppenvergleiche. Ohne dieses Wissen bringt dir die Berechnung einer ANOVAs nichts, da du nicht verstehen würdest, wie du sie anlegen bzw. interpretieren musst.

In Teil 2 zeige ich dir ganz konkret, welche Berechnungsschritte und Entscheidungen du innerhalb der ANOVA treffen musst. Hast du die verstanden, kannst du definitiv loslegen.

Teil 1: Die Grundlagen der ANOVA für Gruppenvergleiche

Fangen wir erstmal bei den 3 Namen der ANOVA für Gruppenvergleiche an.

Die ANOVA für Gruppenvergleiche (das ist der verständlichste Titel), wird auch Zwischensubjekt-ANOVA genannt, weil sie zwischen Gruppen vergleicht.

Im Englischen wiederum heißt sie Between-Subject’s ANOVA, ein Ausdruck, der wiederum auch gerne mal in Deutschland verwendet wird. Hörst du also einen dieser drei Begriffe, weißt du, dass es sich um den Vergleich von mindestens drei verschiedenen Gruppen bzgl. einer metrischen abhängigen Variablen geht.

Variablentypen innerhalb der ANOVA

Was heißt das nun schon wieder?

 

Eine metrische Variable ist gleichmäßig skaliert, d.h. alle Einheiten haben den gleichen Abstand zueinander (1 cm ist genauso weit von 2cm entfernt, wie 77 von 78cm). Typische metrische Variablen sind das Alter, das Gewicht oder die Körpergröße. 

Metrische Variablen übernehmen innerhalb der ANOVA die Rolle der abhängigen Variablen, sie sind also die Variable, bei der wir einen Effekt erwarten, sobald wir die unabhängige Variable verändern.

Die unabhängige Variable ist dabei nominal skaliert, also in Klassen unterteilbar. Jede Person kann dabei nur einer Klasse angehören. Ein typisches Beispiel wäre z.B. die Behandlungsgruppe innerhalb einer Studie (Schmerzmittel A vs. B vs. C), oder der Status tot vs. lebend.

Die unabhängige Variable wird aufgrund ihrer nominalen Skalierung im Rahmen der ANOVA auch Faktor genannt, die Ausprägungen des Faktors nennt man Faktorstufen.

Flowchart

ANOVA für Gruppenvergleiche

Aufbau der ANOVA

 

Innerhalb einer ANOVA untersuchst du also die Auswirkung eines Faktors (z.B. Schmerzmittel A vs. B vs. C) auf eine abhängige Variable (z.B. die Wirkdauer der beiden getesteten Medikamente).

 

Und jetzt kommt der Clou. Die ANOVA erlaubt dir nicht nur einen Faktor zu testen, sondern mehrere, und zwar gleichzeitig!

 

Du könntest also auch testen, ob die Wirkdauer des Schmerzmittels A oder B davon abhängig ist, wie hoch die verabreichte Dosis war (auch hier wieder nominal: niedrig, mittel, hoch).

 

Das ist praktisch, denn anders als in einem einfachen T-Test, der dir nur den Vergleich zweier Gruppen erlaubt, kannst du innerhalb der ANOVA recht komplexe Effektstrukturen aufbauen, indem du mehrere Faktoren kombinierst. Das obige Beispiel würde zum Beispiel in einem 2 x 3 Design resultieren, sodass du letztendlich 6 unterschiedliche Gruppen gleichzeitig testen würdest.

 

Ich mal dir das mal auf, damit du weißt, was ich meine:

 

Diagramm zur Darstellung der Untergruppen in einer ANOVA für Grupenvergleiche
Diagramm zur Darstellung der Untergruppen in einer ANOVA für Grupenvergleiche

 

Du siehst, schon bei zwei Faktoren sind das verdammt viele Untergruppen (Anzahl der Zweige im Diagramm).

Die Komplexität einer ANOVA hängt also ganz entscheidend davon ab, wie viele Faktoren mit wie vielen Faktorstufen du hast. Um den Überblick zu behalten und um überhaupt die Chance zu haben, ausreichend viele Patienten pro Untergruppe zu erheben, rate ich dir dringend, während deiner Studienplanung darauf zu achten, nicht mehr als zwei Faktoren mit nicht mehr als 4 Unterstufen im stufenreichsten Faktor einzuplanen. Allein diese Kombination würde schon in 8 Untergruppen resultieren, die du mit ausreichend vielen Patienten füllen musst. Je komplexer dein Design also ist, desto schwieriger kriegst du alle Untergruppen voll.

Aber kommen wir zurück zu unserer ANOVA:

↑ Zurück zur Übersicht

Effekte der ANOVA

 

In unserem Beispiel testest du 2 Faktoren, die in insgesamt 3 Effekten resultieren:

 

1. dem Haupteffekt „Schmerzmittel“:
Unterscheiden sich beide Schmerzmittel bzgl. ihrer Wirkdauer, ganz unabhängig davon, welche Dosis gegeben wurde.

2. dem Haupteffekt „Dosis“:
Unterscheidet sich die Wirkdauer zwischen den 3 gegeben Dosierungen, ganz unabhängig von dem gegeben Schmerzmittel.

3. der Interaktion „Schmerzmittel x Dosis“:
Unterscheidet sich die Wirkdauer zwischen den verschiedenen Dosierungen in Abhängigkeit von dem gegebenen Schmerzmittel?

Du siehst schon, die Effekte heißen genau wie die Faktoren bzw. deren Kombination – sehr praktisch.

Besonders interessant ist dabei der Interaktionseffekt, denn das ist unser Zieleffekt – sonst hätten wir uns die Mühe mit den verschiedenen Faktoren ja nicht gemacht. Die Haupteffekte sind oft Beiwerk, das wir interpretieren, wenn die Interaktion nicht signifikant geworden ist.

Aber was heißt das eigentlich, wenn Haupteffekte oder Interaktionen signifikant werden?

 

Prinzipiell alles und nichts. Das Besondere an der ANOVA ist nämlich, dass sie ein übergeordneter Test ist. Ihre Effekte sagen uns, DASS da irgendwo innerhalb der Haupt- bzw. Interaktionseffekte systematische Unterschiede zwischen den Gruppen versteckt sind, sie sagen uns aber nicht WO.

Signifikante Haupteffekte bzw. Interaktionen geben uns also die Erlaubnis, dort, wo die Signifikanz aufgetreten ist, genauer nachzuschauen, und zwar mit Hilfe von direkten Vergleichen in Form von T-Tests oder aber über geplante Kontraste – je nachdem, ob du Hypothesen definiert hast und welches Verfahren dir lieber ist.

 

Wichtig dabei zu wissen ist, dass du im Falle einer signifikanten Interaktion weitere signifikante Haupteffekte ignorieren kannst. Das liegt daran, dass eine signifikante Interaktion darauf hindeutet, dass sich der wirklich bedeutsame Effekt nur in manchen Untergruppen abspielt, in anderen aber nicht. Dass könnte z.B. der Fall sein, wenn die Wirkdauer nur bei einem der beiden Schmerzmittel mit höherer Dosis stetig ansteigt, bei dem anderen Medikament aber nicht.

 

Interpretierst du also trotz einer signifikanten Interaktion den Haupteffekt Dosis, weil  sich der Effekt des einen Schmerzmittels in diesem „Gemisch“ beider Schmerzmittel durchsetzt, dann erliegst du fälschlicherweise dem Eindruck, dass eine höhere Dosis immer eine längere Wirkdauer zur Folge hat, egal welches Medikament gegeben wurde. Und das ist natürlich verkehrt und würde zu völlig falschen Therapieempfehlungen führen.

 

In diesen Grafiken wird das noch mal deutlich: 

Abb. 1. Interaktion Schmerzmittel x Dosis: Sie zeigt dir, dass nur Ibuprofen einen Dosiseffekt hat (höhere Dosis = längere Wirkdauer), Paracetamol dagegen nicht (die Wirkdauer ist immer gleich lang, egal wie hoch die Dosis war). Das ist natürlich ein ausgedachtes Extrembeispiel und hat nichts mit der wirklichen Wirkdauer beider Mittel zu tun.

ANOVA für Gruppenvergleiche: Grafik zu Effekt Wirkdauer und Dosis

Abb. 2. Haupteffekt Dosis: Hier siehst du die gleichen Daten noch einmal, allerdings ohne eine Unterteilung nach Medikament. In diesem Fall mittelt sich der Effekt von Ibuprofen in den Haupteffekt, sodass es so aussieht, als ob es einen generellen Effekt der Dosis gibt, ganz egal welches Medikament gegeben wurde. Das ist natürlich falsch.

Das heißt also (ich wiederhole das lieber mehrfach, damit es wirklich hängen bleibt): Im Falle einer signifikanten Interaktion zweier Faktoren, solltest du unbedingt auf die Interpretation signifikanter Haupteffekte verzichten und dich lieber darauf konzentrieren herauszufinden, worin genau die Effekte der Interaktion begründet sind.

 

Das machst du mit Hilfe von so genannten Post-hoc-Tests, falls du keine Hypothesen hast, wo die Unterschiede liegen könnten. Hast du genaue, vorab definierte Annahmen kannst du geplante Kontraste verwenden, die du gleich in einem Rutsch im Rahmen der ANOVA mit testest.

↑ Zurück zur Übersicht

Überprüfung anhand ungepaarter T-Tests

 

Schritt 1:
Um den Anstieg der Wirkdauer des einen aber nicht des anderen Schmerzmittels parallel zur steigenden Dosierung zu überprüfen, könntest du ungepaarte T-Tests zwischen der geringen und der mittleren, sowie der mittleren und der hohen Dosis rechnen – allerdings getrennt nach Medikamenten (hierfür benutzt du am besten Filter).

 

Schritt 2:
Um die Unterschiede zwischen den Medikamenten innerhalb jeder einzelnen Dosierung zu testen, vergleichst du die Wirkdauer von Schmerzmittel A und B separat für jede Dosis (auch hier setzt du Filter für die jeweilige Dosierung).

 

 

Vorteile der ANOVA

 

Nun fragst du dich sicher, warum du denn überhaupt die ANOVA brauchst, wenn du nun trotzdem so viele T-Tests rechnen sollst, wenn ich doch die ganze Zeit behaupte, dass eine ANOVA so effizient und zeitsparend ist.

Da hast du Recht – ich aber auch, denn Zeit spart sie dir tatsächlich!

Wie schon erklärt ist die ANOVA ein übergeordnetes Verfahren, ich nenne sie deshalb auch gerne einen globalen Test oder ein Gatekeeper-Verfahren. Diese Namen habe ich mir ausgedacht, aber ich finde sie sehr treffend.

Die ANOVA sondiert für dich vor, ob und wo genau du nach Unterschieden suchen sollst. Ist die Interaktion nicht signifikant, weil sich vielleicht beide Medikamente entlang der Dosierungen ähnlich verhalten (Haupteffekt Dosierung = signifikant), kannst du sofort damit beginnen, die geringe mit der mittleren, und die mittlere mit der hohen Dosis zu vergleichen – und zwar unabhängig von der Gruppe. So hast du dir mit einem Schlag diverse T-Tests gespart und das Risiko von Zufallsbefunden deutlich gesenkt.

Ähnlich verhält sich auch mit deinem zweiten Faktor Schmerzmittel. Ist die Interaktion nicht signifikant, schaust du, ob sich die Medikamente A vs. B. ganz unabhängig von der gegebenen Dosis voneinander unterscheiden.

Das ist zwar ein etwas gröberer Befund, bringt dir aber trotzdem noch einen großen Informationsgewinn.

Sind weder die Interaktion noch die Haupteffekte signifikant, kannst du direkt zur nächsten Hypothese wechseln und das Thema abhaken. Somit sparst du in den allermeisten Fällen sehr viel Zeit. Ganz zu schweigen, dass deine Gutachter die ANOVA erwarten, weil sie mittlerweile Standard ist.

 

↑ Zurück zur Übersicht

Teil 2: Berechnung der ANOVA für Gruppenvergleiche

 

Nachdem ich dir nun die Grundprinzipien der ANOVA erklärt habe, können wir zur rechnerischen Seite übergehen, denn die ist genauso wichtig (schließlich willst du ja zu was kommen, oder?!).

Hier möchte ich dir vorab schon mal alle Ängste nehmen: Alles was ich dir jetzt erkläre ist auch für dich absolut machbar, denn wir haben dafür gezielt Kursmaterialien entwickelt, die du auf deine Daten easy peasy anwenden kannst. Es geht mir im Folgenden nur darum, dass du die einzelnen Schritte der Analyse verstehst.

Du musst also nichts programmieren, sondern nur anhand unserer Anleitung entscheiden, welche Schritte der ANOVA für dich die richtigen sind.

 

Los geht’s!

Bevor du startest

 

Lade dir zuerst unser kostenloses Flowchart herunter. Dort sind alle Schritte der ANOVA für Gruppenvergleiche aufgeführt. So verlierst du nie den Überblick und weißt immer genau, welches Verfahren du rechnen musst.

Schritt 1 – Vorbereitung

 

Zuallererst bereitest du deine Daten auf, bringst sie in Excel in Form und liest die Daten ein. Das ist garnicht schwer, dafür geben wir dir Vorlagen.

 

Flowchart

ANOVA für Gruppenvergleiche

Schritt 2 – Deskriptive Statistik

 

Es ist immer gut einen Überblick über die eigenen Daten zu bekommen. Daher berechnen wir nun eine deskriptive Statistik für deine Daten und schauen uns erstmal an, wie dein Datensatz so aussieht. Hat er Ausreißer, oder wirkt alles stimmig? Falls ja, überlegen wir, was dahintersteckt. Außerdem erstellen wir erstmal eine Grafik, damit wir grob sehen, wie die Effekte so aussehen.

ANOVA für Gruppenvergleiche: Liniendiagramm

Schritt 3 – Berechnung der ANOVA für Gruppenvergleiche

 

Hier berechnen wir nun die ANOVA an sich und zwar mit dem R-Paket aov (). Keine Panik, das ist nicht schwer, du musst nur unser Skript durchlaufen lassen.

 

Schritt 4 – Prüfen der Annahmen

 

Nachdem wir die ANOVA berechnet haben, prüfen wir nun, ob wir sie überhaupt rechnen durften. Dieses Vorgehen ist zwar falsch herum, aber tatsächlich funktioniert das Prüfen der Annahmen der ANOVA viel besser, wenn man sie schon gerechnet hat. Und wir wollen doch so effizient wie möglich vorgehen, oder?

 

Hier sind folgende Kriterien wichtig:

1. Sind unsere Daten normalverteilt?

Um das zu beurteilen, nutzen wir QQ-Plots und den Shapiro-Wilk-Test (weiteratmen, du schaffst das…)

2. Liegt eine Varianzhomogenität vor?

Das sagt uns der Levene‘s Test, ist er nicht signifikant ist alles gut.

Hier teilt sich nun die Analyse in zwei Ströme auf, die aber vom Prinzip her sehr ähnlich sind.

 

Werden die Annahmen der ANOVA erfüllt oder sind deine Gruppen sehr groß (N > 30 pro Untergruppenkombination), dann dürfen wir einfach normal weitermachen und die Ergebnisse der parametrischen ANOVA aus Schritt 3 interpretieren.

Gibt es in deinem Datensatz ernsthafte Probleme, müsstest du nun eigentlich auf das nicht-parametrische ANOVA-Äquivalent, dem Kruskal-Wallis-Test, ausweichen. Der hat aber leider nicht die Möglichkeit Interaktionen zu testen und das wollen wir doch unbedingt, oder?

Daher haben wir dir ein Skript geschrieben, dass dir erlaubt, die bisherige ANOVA weiterhin zu verwenden, allerdings überführen wir sie nun in eine robuste Form. Das heißt, wir machen sie unempfindlich gegenüber gravierender Annahmeverletzungen (das ist wirklich cool und viel eleganter als eine nicht-parametrische ANOVA!).

Dafür bauen wir in die ANOVA ein sogenanntes Bootstrapping-Verfahren ein, dass mit Hilfe von 2000 Stichproben mit Zurücklegen eine robuste Test-Statistik errechnet, aus der dann wiederum ein robuster p-Wert und eine robuste Effektstärke abgeleitet wird (robust kommt dir an dieser Stelle wahrscheinlich schon zu den Ohren raus).

Was du dir hier nur merken musst ist, dass du weiterhin eine relativ normaldesignte ANOVA rechnen kannst, die wir aber unempfindlich auf mögliche Annahmeverletzungen gemacht haben.

Einen Code zu schreiben, der das kann und den du total einfach an deine Studie anpassen kannst, hat meinen R-Spezialisten Simon ziemlich viel Zeit und Nerven gekostet, aber ich finde es hat sich gelohnt!

↑ Zurück zur Übersicht

Schritt 5 – Effekte untersuchen

 

Egal welche ANOVA du gerechnet hast, die Ergebnisse liegen vor. Nun kannst du anhand der Signifikanzen entscheiden, welchen Effekt du weiter untersuchen möchtest: eine oder beide Haupteffekte, oder vielleicht sogar die Interaktion? Die Antwort findest du im ersten Teil des Artikels.

Egal was es ist, wir haben das passende Skript dafür geschrieben.

Hast du vorher eine parametrische ANOVA (also die ganz normale) gerechnet, machst du nun mit den T-Tests weiter, um deine Effekte auszudifferenzieren. Natürlich zeigen wir dir genau, wie und ob du hier für multiples Testen korrigieren musst.

Hast du dich vorab für eine robuste ANOVA entschieden, machst du mit YUEN-Tests weiter, die ebenfalls robust sind und für multiples Testen korrigiert wurden.

Natürlich zeigen wir die auch, wie du für jeden Test auch entsprechende Effektstärken berechnest, denn die brauchst du, um zusätzlich zur Signifikanz beurteilen zu können, wie bedeutsam der Effekt ist. Und da du ggf. sogar publizieren möchtest, berechnen wir die Konfidenzintervalle für jede Effektstärke gleich mit, sicher ist sicher, man weiß nie, wer die mal haben will.

 

Schritt 6Geplante Kontraste

 

Hattest du vorab feste Hypothesen definiert dann zeigen wir dir eine sehr elegante Alternative – geplante Kontraste. Hier kannst du anhand von uns vordefinierten Vergleichen in einem Schritt mehrere Vergleiche auf einmal rechnen. So umgehst du die Korrektur für multiple Vergleiche und erhöhst die Chance signifikante Ergebnisse zu bekommen.

 

Schritt 7 – Grafik erstellen

 

Keine Statistik ohne schicke Grafik. Mit Hilfe unseres letzten Skripts kannst du dir ratz fatz eine wunderschöne Grafik deiner Effekte basteln. Wir haben dabei extra darauf geachtet, dass du sie sowohl für deine Dissertation als auch für eine mögliche Publikation verwenden kannst. 

 

Schritt 8 – Methoden- & Ergebnisteil

 

Das wäre es rechnerisch, aber natürlich musst du deine Effekte auch noch klinisch interpretieren und in dein Manuskript eintragen.

Dafür haben wir dir sowohl für den Methoden- als auch für den Ergebnisteil Textbausteine erstellt, die du einfach an deine Effekte anpassen kannst (natürlich auf Deutsch und Englisch, falls du publizieren möchtest).

 

Hast du alle Schritte durchlaufen, bist du wahrscheinlich stolz wie Bolle.

Wir sind es auf alle Fälle.

↑ Zurück zur Übersicht

Hol dir hier die Formelsammlung für deinen Bland-Altman-Plot

Melde dich für meinen Newsletter an und erhalte sofort das PDF!

You have Successfully Subscribed!

Trag dich hier für Dr. Ortmanns beste Maildizin ein und erhalte regelmässige Tipps für deine empirische Promotion

You have Successfully Subscribed!

Hol dir hier die Checkliste für deinen Methodenteil

Melde dich für meinen Newsletter an und erhalte sofort das PDF!

You have Successfully Subscribed!