Nie wieder Ärger beim Datenimport – so legst du deinen Datensatz richtig an!

Nie wieder Ärger beim Datenimport – so legst du deinen Datensatz richtig an!

Du hast deine Daten gesammelt und möchtest nun wissen, wie du deinen Datensatz in Excel aufbereitest, damit die spätere statistische Analyse deiner Dissertationsdaten reibungslos abläuft?

 

Dann bist du hier genau richtig!

Bevor es losgeht:

 

Öffne deinen Datensatz in Excel und arbeite die folgenden Punkte Schritt für Schritt durch!

Lade dir vorab unsere Vorlage für deinen Datensatz herunter und lerne direkt am Beispiel die Do’s and Don’ts der Dateneingabe!

Hast du alle Punkte abgehakt, sollte das Einlesen deines Datensatzes fehlerfrei funktionieren und die weitere Datenanalyse deutlich leichter gelingen! 

Eine wichtige Info vorab:

 

Patientennamen, Adressen oder andere Informationen, mit denen außenstehende Personen deine Studienteilnehmer identifizieren können, müssen aus dem Datensatz entfernt werden!

In den meisten Studien liegen schon passende ID-Variablen vor, falls nicht kannst du selbst eine Variable erstellen.

Die Paarung zwischen deiner neuen ID und dem Patientennamen musst du in einer zweiten, nicht zugänglichen Excel-Liste abspeichern!

Schritt 1: Kontrolliere deinen Datensatz auf Störzeichen

Datenanalyseprogramme sind manchmal schwer von Kapee. Jede kleinste Störung kann eine Fehlermeldung erzeugen. Daher müssen wir deinen Datensatz von Störern säubern. Kontrolliere, ob folgende Zeichen in deinem Datensatz vorhanden sind und entferne sie. Sonst wird der Datenimport nicht reibungslos funktionieren:

• Leerzeichen
• Sonderzeichen
• Umlaute

 

Die Suche per Hand ist dir zu aufwendig?

Kleiner Trick: Falls dein Datensatz sehr groß ist nutze die Suchfunktion von Excel, um die jeweiligen Zeichen zu finden! Das funktioniert sogar für Leerzeichen!

Excel-Vorlage

Aufbau deines Datensatzes

Schritt 2: Die richtige Struktur deines Datensatzes

 

Datensätze haben einen einheitlichen Aufbau, an den du dich immer halten kannst! Baue deinen Datensatz nach der folgenden Struktur auf, dann erkennen R und SPSS deine Variablen sofort:

  1. Datensätze unterteilen sich in Spalten und Zeilen. Jede Spalte stellt eine Variable dar, jede Zeile einen Patienten. Auf diese Weise kannst du pro Patienten alle relevanten Merkmale in einer Zeile übersichtlich darstellen.
  2. Die oberste Zeile (Zeile 1) enthält IMMER die Variablennamen, alle folgenden Zeilen die Daten der einzelnen Patienten
  3. Verschiedene Messzeitpunkte werden in einer separaten Variablen abgelegt. So nimmt jeder Patient trotz mehrerer Zeitpunkte weiterhin immer nur 1 Zeile im Datensatz ein (= Wide-Format)!
  4. Jeder Variablenname muss kurz und prägnant sein und darf keine Leerzeichen, Sonder- oder Satzzeichen enthalten! Unterstriche sind erlaubt.
    Beispiel: „Gewicht_in_kg_prae_op“ ist korrekt, „Gewicht (kg) prä op“ ist falsch
  5. Verwende keine übergeordneten Zeilenbeschriftungen („alle Kreislaufparameter“, „alle Variablen prä-OP“, etc), um Variablen zu gruppieren.
    Es darf immer nur eine Zeile mit Variablennamen geben, niemals zwei!

Übernehme die richtige Struktur deines Datensatzes am besten direkt aus unserer Vorlage, dann kann nichts schiefgehen!

Schritt 3: Variablentypen richtig editieren

 

In jedem Datensatz gibt es 4 verschiedene Variablentypen – metrische, ordinale und nominale Variablen, sowie Variablen mit weiteren Infos, wie Datumsangaben oder Textfeldern.

Mit Textfeldern, wie z.B. Kommentaren können Datenanalyseprogramme nicht rechnen, sie werden daher einfach als Zeichenfolgen deklariert und haben die Tendenz dir das Leben schwer zu machen.

Wenn du auf permanente Fehlermeldungen im Rahmen deiner Datenanalyse keine Lust hast, achte penibel auf die folgenden Punkte:

Metrische Variablen

Metrische Variablen sind das Gold deines Datensatzes. Mit ihnen kannst du die besten Analysen rechnen. Bereite Sie daher gut auf, damit sie dir später keinen Ärger machen:

  • metrische Variablen sind numerisch und dürfen daher niemals Textzeichen in den Datenfeldern enthalten
  • Maßeinheiten gehören in den Variablennamen (Gewicht_in_kg) oder in das Codebook, nicht in die Wertefelder
  • Ausnahme R: Fehlende Werte dürfen als Textzeichen „NA“ codiert werden

 

Ordinalskalierte Variablen

  • Ordinalskalierte Variablen sind rangbasiert. D.h. ihre Ausprägungen drücken eine klare Reihenfolge aus, also ein mehr oder weniger.
  • Je nach Inhalt werden sie im täglichen Gebrauch als Zeichenfolge dargestellt (z.B. „UICC Stadium“) oder als Zahl codiert (VAS-Skalen).
  • Am einfachstes ist es wenn du ordinalskalierte Variablen in deinem Datensatz numerisch codierst und erst später im Rahmen der weiteren Datenanalyse Wertelabel zuordnest, die dir zeigen wofür die Zahlen stehen. So hast du keinerlei Probleme beim Import deiner Daten.
  • Die Codierung einer ordinalskalierten Variablen muss dabei die Ränge ihrer Ausprägungen widerspiegeln:
  •  „UICC 0“, „UICC I“, „UICC II“, „UICC III“ codierst du als 0, 1, 2, 3 und nicht als 3, 0, 2, 1! Nur auf diese Weise werden deine statistischen Tests später sinnvolle Ergebnisse liefern

Nominalskalierte Variablen

Nominalskalierte Variablem (auch kategoriale Variablen genannt) dürfen in R, aber nicht in SPSS als Zeichenfolge codiert werden. Dabei solltest du so wenig Zeichen wie möglich verwenden. Die Codierung einer  Ausprägung muss dabei immer gleich bleiben!

  • Codiere deine Variablen sparsam (Geschlecht: „m“ / „w“ oder 0 / 1 statt „männlich“ / „weiblich“). So bleibt dein Datensatz übersichtlich.
  • Wähle immer dieselbe Codierung pro Variablenstufe! Wechsele nicht hin und her! Kontrollgruppe = CG und nicht manchmal CG, manchmal TAU (treatment as usual). Ansonsten werden sie später bei der Datenanalyse verschiedenen Gruppen zugeordnet!

Datumsvariablen

Datumsvariablen werden am besten mit einem typischen Datumsformat angegeben (z.B. 01.02.2023). Behalte dabei immer das gleiche Format für die verschiedenen Datumsvariablen bei!

Schritt 4: Leg dir ein Codebook an

 

Mit Codierungen wird dein Datensatz klar und übersichtlich, was alles massiv vereinfacht! Außerdem klappen viele Prozesse innerhalb deiner Datenanalyse reibungsloser. Zuerst mag dich eine Datenmatrix aus Zahlen verwirren, aber keine Angst! Im Laufe deiner Datenanalyse wirst du den Codes wieder ihre ursprünglichen Label zuordnen, und dir so die spätere Interpretation und Darstellung deiner Ergebnisse erleichtern.

Erstelle daher ein Codebook, das für jede Variable Codierungen und Wertelabel zusammenführt!

In unserem Beispieldatensatz haben wir schon eine Vorlage für dein Codebook erstellt!

Schritt 5: Fehlende Werte richtig codiert?

 

Fehlende Werte sind ganz normal, sollten aber als solche auch gekennzeichnet werden, damit R oder SPSS wissen, womit sie es zu tun haben.

Fehlende Werte solltest du daher immer labeln:

  • in R immer als NA (not available)
  • in SPSS: leer lassen oder -999 (oder eine andere für diese Variablen sehr unwahrscheinliche Ausprägung auswählen)

Tipp: Nach dem Datenimport musst du R und SPSS natürlich sagen, wie dein fehlender Wert gelabelt ist. Wir zeigen dir in unserem Grundlagenkurs wie das geht!

Schritt 6: Säubere deinen finalen Datensatz

 

Datenanalyseprogramme sind echte Diven. Sie lesen am liebsten klarstrukturierte Datensätze ohne überflüssigen Schnickschnack ein. Du musst also unbedingt darauf achten alles Überflüssige zu entfernen!

Dazu zählen:

  • Kommentare oder unnötige Variablen,
  • Subauswertungen unter dem Datensatz (Vorauswertungen in Excel, wie Mittelwerte, die du vorab berechnet hast),
  • interne Formeln / Zellenbezüge / Querverweise. Excel hat hier viele Möglichkeiten dein spätere Datenanalyse zu stören, entferne sie also unbedingt und ersetze sie durch reine Zahlen (kopiere dazu das entsprechende Zahlenfeld und füge es als reine Zahl wieder ein (rechte Maustaste Einfügeoption „123“).

Extra-Tipp:

Speichere dir verschiedene Versionen deines Datensatzes ab! Den großen mit Informationen, die dir vielleicht noch einmal nützlich sein werden und den finalen für deine Datenanalyse. So hast du im Zweifelsfall alle Infos parat!

Schritt 7: Lese deinen Datensatz ein und starte deine Datenanalyse

 

Nun hast du es geschafft, dein Datensatz steht!

 

Doch wie geht es nun weiter?

 

Als nächstes werden wir deinen Datensatz gemeinsam in R einlesen und mit der statistischen Analyse deiner Daten beginnen!

 

Wie du das machst und was zu tun ist, wenn du keine Ahnung von den Grundlagen der medizinischen Datenanalyse hast, zeigen wir dir in unserem Grundlagenkurs „Statistik für Mediziner“.

Los geht’s!

Wie interpretiere ich eine ANOVA?

Wie interpretiere ich eine ANOVA?

In diesem Artikel erkläre ich dir, wie du die Effekte einer ANOVA interpretierst und welche Arten von ANOVAs es gibt. 

Die ANOVA ist eines der am häufigsten verwendeten statistischen Verfahren in der Medizin.

 

Sie ist sehr effektiv und erspart dir eine Menge Probleme, sobald du mehr als zwei Gruppen oder zwei Zeitpunkte miteinander vergleichen möchtest.

 

In dieser Artikelreihe erkläre ich dir deshalb wie ANOVAs funktionieren, welche Effekte es innerhalb der ANOVA gibt und welche 3 Typen der ANOVA du kennen solltest.

In diesem ersten Artikel stelle ich dir das allgemeine Konzept hinter der ANOVA vor und welche Effekttypen sie umfasst. Eine ANOVA korrekt zu berechnen und zu interpretieren, ist ohne dieses Wissen nicht möglich. Daher ist es wichtig, dass du diesen Artikel zuerst liest.

 

Hast du die Effekte der ANOVA verstanden, kannst du im nächsten Schritt überlegen, welcher ANOVA-Typ der richtige für dich ist und in den ANOVA-spezifischen Artikeln nachlesen, wie du ihn korrekt durchrechnest.

Die Grundlagen der ANOVA

Innerhalb der ANOVA testest du den Einfluss einer oder mehrerer nominaler Variablen auf eine metrische Variable.

 

Wir schauen also z. B., ob Variablen wie die gegebene Schmerzmittel eines Patienten (nominal) einen Einfluss auf sein Schmerzempfinden (metrisch) hat. 

 

Du siehst sicher schon, dass diese nominale Variable relativ gut in Klassen einteilbar ist. Man hat also entweder Paracetamol oder Ibuprofen bekommen. Zwischenformen gibt es nicht. Somit gehören Patienten in innerhalb der ANOVA entweder der einen oder anderen Gruppe an. Und der Einfluss dieser Gruppe wird dann geprüft.

 

Die Gruppenvariable nennen wir im Rahmen der ANOVA auch Faktor (in diesem Fall: die Diagnose). Die einzelnen Ausprägungen des Faktors (Paracetamol vs. Ibuprofen) nennen wir Faktorstufen. Und weil nur wir die Faktorstufen innerhalb unserer Studie beliebig manipulieren können, nennt man den Faktor auch die unabhängige Variable.

Im Gegenzug dazu gibt es innerhalb der ANOVA die abhängige Variable. Sie ist die Variable, bei der wir einen Effekt erwarten, sobald wir die Ausprägungen der unabhängigen Variable(n) verändern.

 

Wir geben also Paracetamol oder Ibuprofen und schauen dann, wie sich das auf das Schmerzempfinden auswirkt.

 

Im Fall der ANOVA ist die abhängige Variable metrisch skaliert. Metrische Variablen sind gleichmäßig skaliert, d. h. alle Einheiten haben den gleichen Abstand zueinander (1 cm ist genauso weit von 2 cm entfernt, wie 77 von 78 cm). Typische metrische Variablen sind das Alter, das Gewicht oder die Körpergröße. 

Fazit: 

Im Rahmen der ANOVA prüfen wir also, wie sich die Effekte einer nominal skalierten Variablen auf eine metrisch skalierte Variable auswirken.

Flowchart

ANOVA für Gruppenvergleiche

Das Design der ANOVA

 

„Aber ist das nicht genau das Gleiche wie beim t-Test?“

Ja und nein. Das Tolle an der ANOVA ist nämlich, dass du anders als bei einem t-Test nicht nur zwei Gruppen miteinander vergleichen kannst, sondern auch 3 oder 4, oder soviele du willst.

 

Aber es kommt noch besser: Die ANOVA erlaubt dir nicht nur den Einfluss eines Faktors zu testen, sondern mehrerer! 

Ihre Ergebnisse zeigen dir also nicht nur den Effekt eines einzelnen Faktors an (wie z.B. der t-Test) , sondern auch die Effekte mehrerer Faktoren oder sogar deren Kombinationen! Das meine ich mit effektiv!

 

Du könntest also testen, ob die Wirkdauer des Schmerzmittels A oder B davon abhängig ist, wie hoch die verabreichte Dosis war (auch hier wieder nominalskaliert als niedrige, mittlere und hohe Dosis).

 

Das ist praktisch, denn anders als in einem einfachen t-Test, der dir nur den Vergleich eines Faktors mit zwei Stufen erlaubt (= den Vergleich zweier Gruppen), kannst du innerhalb der ANOVA recht komplexe Effektstrukturen aufbauen, indem du mehrere Faktoren mit vielen Faktorstufen kombinierst.

 

Hier siehst du unser Beispiel – die Kombination der Faktoren Schmerzmittel und Dosis:

 

Diagramm zur Darstellung der Untergruppen in einer ANOVA für Grupenvergleiche
Diagramm zur Darstellung der Untergruppen in einer ANOVA für Grupenvergleiche (Gruppen: Schmerzmittel A und B in Kombination mit Höhe der Dosis)

 

Allerdings – und das siehst du wahrscheinlich auch sofort – resultiert die Kombination verschiedener Faktoren in sehr vielen Untergruppen, in diesem Fall 6, die du alle mit ausreichend vielen Patienten füllen musst, damit die ANOVA sinnvolle Ergebnisse liefern kann.

 

Das ist Nachteil hat die ANOVA: Du musst genauso viele Untergruppen mit Patienten befüllen, wie sich aus der Kombination der einzelnen Faktoren samt ihrer Faktorstufen ergibt. Es ist nicht möglich, Untergruppen leer zu lassen!

 

Daher rate ich dir während deiner Studienplanung darauf zu achten, nicht mehr als zwei Faktoren mit nicht mehr als 4 Unterstufen im stufenreichsten Faktor einzuplanen. Allein diese Kombination würde schon in mindestens 8 Untergruppen resultieren, für die du ausreichend viele Patienten rekrutieren müsstest. Je komplexer dein Design also ist, desto schwieriger wird es.

↑ Zurück zur Übersicht

Die Effekte der ANOVA

 

In unserer Beispiel-ANOVA testest du 2 Faktoren, die in insgesamt 3 Effekten resultieren:

 

1. dem Haupteffekt „Schmerzmittel“:
Unterscheiden sich beide Schmerzmittel bzgl. ihrer Wirkdauer, ganz unabhängig davon, welche Dosis gegeben wurde.

2. dem Haupteffekt „Dosis“:
Unterscheidet sich die Wirkdauer zwischen den 3 gegeben Dosierungen, ganz unabhängig von dem gegebenen Schmerzmittel.

3. der Interaktion „Schmerzmittel x Dosis“:
Unterscheidet sich die Wirkdauer zwischen den verschiedenen Dosierungen in Abhängigkeit vom gegebenen Schmerzmittel?

 

Du siehst also es gibt Haupteffekte, die den Effekt eines jeden Faktors einzeln betrachten, ganz unabhängig von Ausprägungen des anderen Faktors.

 

Der Haupteffekt „Schmerzmittel“ zeigt dir also, ob sich die Wirkdauer von Ibuprofen und Paracetamol generell unterscheidet – ob die Dosis dabei hoch, mittel oder niedrig war, wird nicht berücksichtigt.

 

Genauso ist es auch beim Haupteffekt Dosis, hier wird nur ganz allgemein getestet, ob wie sich die gegebene Dosis auf die Wirkdauer auswirkt, welches Medikament gegeben wurde, ist dabei irrelevant.

 

Aber wollten wir nicht eigentlich wissen, ob die Kombination beider Faktoren einen wichtigen Einfluss auf die Wirkdauer hat?

Ganz genau. Richtig interessant wird es erst, wenn wir prüfen, ob sich die Wirkdauer zwischen den drei Dosierungen je nach Schmerzmittel unterscheiden.

 

Und genau das ist unser Interaktionseffekt.

Er zeigt dir an, ob die Kombination aus beiden Faktoren einen systematischen Effekt auf deine abhängige Variable hat. Und das wollen wir ja wissen – sonst hätten wir uns die Mühe mit den verschiedenen Faktoren ja nicht gemacht. Die Haupteffekte sind somit oft Beiwerk, das wir interpretieren, wenn die Interaktion nicht signifikant geworden ist.

Aber was heißt das eigentlich, wenn Haupteffekte oder Interaktionen signifikant werden?

 

Prinzipiell alles und nichts. Das Besondere an der ANOVA ist nämlich, dass sie ein übergeordneter Test ist. Ihre Effekte sagen uns nur, DASS da irgendwo innerhalb der Haupt- bzw. Interaktionseffekte systematische Unterschiede zwischen den Gruppen versteckt sind, sie sagen uns aber nicht WO.

Signifikante Haupteffekte bzw. Interaktionen geben uns somit zuerst einmal die Erlaubnis, dort, wo die Signifikanz aufgetreten ist, genauer nachzuschauen, wo die Effekte genau liegen. Und zwar mit Hilfe von direkten Vergleichen in Form von t-Tests oder aber über geplante Kontraste – je nachdem, ob du vorab Hypothesen definiert hast und welches Verfahren dir lieber ist.

 

Wichtig dabei zu wissen ist, dass du im Falle einer signifikanten Interaktion weitere signifikante Haupteffekte ignorieren kannst. Das liegt daran, dass eine signifikante Interaktion darauf hindeutet, dass sich der wirklich bedeutsame Effekt nur in manchen Faktorstufenkombinationen abspielt, in anderen aber nicht. Das könnte z.B. der Fall sein, wenn die Wirkdauer nur bei einem der beiden gegebenen Schmerzmittel mit höherer Dosis stetig ansteigt, bei dem anderen Medikament aber nicht.

 

Interpretierst du also trotz einer signifikanten Interaktion den Haupteffekt Dosis, weil sich der Effekt des einen Schmerzmittels in diesem „Gemisch“ beider Schmerzmittel durchsetzt, dann erliegst du fälschlicherweise dem Eindruck, dass eine höhere Dosis immer eine längere Wirkdauer zur Folge hat, egal welches Medikament gegeben wurde. Und das ist natürlich verkehrt und würde zu völlig falschen Therapieempfehlungen führen.

 

In diesen Grafiken wird das noch mal deutlich: 

Abb. 1. Interaktion Schmerzmittel x Dosis: Sie zeigt dir, dass nur Ibuprofen einen Dosiseffekt hat (höhere Dosis = längere Wirkdauer), Paracetamol dagegen nicht (die Wirkdauer ist immer gleich lang, egal wie hoch die Dosis war). Das ist natürlich ein ausgedachtes Extrembeispiel und hat nichts mit der wirklichen Wirkdauer beider Mittel zu tun.

ANOVA für Gruppenvergleiche: Grafik zu Effekt Wirkdauer und Dosis

Abb. 2. Haupteffekt Dosis: Hier siehst du die gleichen Daten noch einmal, allerdings ohne eine Unterteilung nach Medikament. In diesem Fall mittelt sich der Effekt von Ibuprofen in den Haupteffekt, sodass es so aussieht, als ob es einen generellen Effekt der Dosis gibt, ganz egal welches Medikament gegeben wurde. Das ist natürlich falsch.

Das heißt also (ich wiederhole das lieber mehrfach): Im Falle einer signifikanten Interaktion zweier Faktoren, solltest du unbedingt auf die Interpretation signifikanter Haupteffekte verzichten und dich lieber darauf konzentrieren herauszufinden, worin genau die Effekte der Interaktion begründet sind.

 

Das machst du mit Hilfe von so genannten Post-hoc-Tests, falls du keine Hypothesen hast, wo die Unterschiede liegen könnten. Hast du genaue, vorab definierte Annahmen kannst du geplante Kontraste verwenden, die du gleich in einem Rutsch im Rahmen der ANOVA mit testest.

↑ Zurück zur Übersicht

Überprüfung der Interaktion anhand ungepaarter T-Tests

 

Schritt 1:
Um den Einfluss der Dosis auf die Wirkdauer für beide Medikamente einzeln zu testen könntest du ungepaarte T-Tests zwischen der geringen und der mittleren, sowie der mittleren und der hohen Dosis rechnen – allerdings getrennt nach Medikamenten (hierfür benutzt du am besten Filter).

Dort wo du signifikante Ergebnisse  in den t-Tests findest liegt dein Effekt. Schau dir für diese Gruppen einfach die Mittelwerte der deskriptiven Statistik an und schon weißt du, wie du die Signifikanzen interpretieren kannst.

 

Schritt 2:
Um die Unterschiede zwischen den Medikamenten innerhalb jeder einzelnen Dosierung zu testen, vergleichst du die Wirkdauer von Schmerzmittel A und B separat für jede Dosis (auch hier setzt du Filter für die jeweilige Dosierung).

 

 

Ist deine Interaktion nicht signifikant, konzentrierst du dich auf die weitere Testung der Haupteffekte. Ist einer von ihnen signifikant, vergleichst du die Faktorstufen des entsprechenden Faktors ebenfalls mit t-Test. In diesem Fall kannst du aber auf das Herausfiltern von Untergruppen des anderen Faktors verzichten.

 

Möchtest du also den signifikanten Haupteffekt Dosis interpretieren, vergleichst du einfach die drei Dosierungen mit Hilfe von t-Tests untereinander. Ob dabei Paracetamol oder Ibuprofen gegeben wurde, musst du nicht mehr berücksichtigen, da die nicht-signifikante Interaktion dir gezeigt hat, dass der Effekt der Dosierung nicht vom gegebenen Schmerzmittel abhängt.

 

Noch einfacher wäre es bei einem signifikanten Haupteffekt Medikament. Da hier nur zwei Gruppen zu vergleichen wären müsstest du gar nichts weiter tun, als dir zur Interpretation des Effekts die Mittelwerte der deskriptiven Statistik anzusehen. Das liegt daran, dass ein zweistufiger Haupteffekt vom Prinzip her nichts anderes ist als ein t-Test, auch wenn die Teststatistik eine andere ist.

 

Ist nur einer der Haupteffekte signifikant, kannst du den anderen einfach ignorieren. Sind beide signifikant, musst du beide interpretieren und nachtesten.

 

Fazit:

Eine ANOVA interpretierst du immer hierarchisch. Ist die Interaktion signifikant, interpretierst du nur diese anhand von post-hoc Tests. Die Haupteffekte darfst du ignorieren.

 

Ist die Interaktion nicht signifikant, gehst du „eine Ebene tiefer“ und schaust du dir an, welche der Haupteffekte signifikant sind und differenzierst diese dann anhand weiterer T-Tests aus. Alle nicht signifikanten Haupteffekte können ebenfalls ignoriert werden.

 

Die Richtung der jeweiligen Untertests kannst du dann anhand von Grafiken oder der deskriptiven Statistik interpretieren.

 

 

Vorteile der ANOVA

 

Nun fragst du dich sicher, warum du denn überhaupt die ANOVA brauchst, wenn du innerhalb der post hoc-Tests trotzdem so viele t-Tests rechnen sollst.

 

Wie schon erklärt ist die ANOVA ein übergeordnetes Verfahren, ich nenne sie deshalb auch gerne einen globalen Test oder ein Gatekeeper-Verfahren. Diese Namen habe ich mir ausgedacht, aber ich finde sie sehr treffend.

 

Die ANOVA sondiert für dich vor, ob und wo genau du nach Unterschieden suchen sollst. Ist die Interaktion nicht signifikant, weil sich vielleicht beide Medikamente entlang der Dosierungen ähnlich verhalten (= Haupteffekt Dosierung signifikant), kannst du sofort damit beginnen, die geringe mit der mittleren, und die mittlere mit der hohen Dosis zu vergleichen – und zwar unabhängig von der Gruppe. So hast du dir mit einem Schlag diverse t-Tests gespart und das Risiko von Zufallsbefunden deutlich gesenkt.

 

Ähnlich verhält sich auch mit deinem zweiten Faktor Schmerzmittel. Ist die Interaktion nicht signifikant, schaust du, ob sich die Medikamente ganz unabhängig von der gegebenen Dosis voneinander unterscheiden.

 

Das ist zwar ein etwas gröberer Befund, bringt dir aber trotzdem noch einen großen Informationsgewinn.

 

Sind weder die Interaktion noch die Haupteffekte signifikant, kannst du direkt zur nächsten Hypothese wechseln und das Thema abhaken. Somit sparst du in den allermeisten Fällen sehr viel Zeit. Ganz zu schweigen davon, dass deine Gutachter die ANOVA erwarten, weil sie einfach Standard ist.

 

↑ Zurück zur Übersicht

Die 3 Arten der ANOVA:

 

Es gibt 3 verschiedene Typen der ANOVA, die ANOVA für Gruppenvergleiche, die ANOVA für Messwiederholungen und die ANOVA für Gruppevergleiche x Messwiederholungen.

Natürlich haben die in echt etwas kompliziertere Namen, aber ich finde eine bildliche Beschreibung nicht schlecht.

 

1. Die ANOVA für Gruppenvergleiche:

…wird auch Zwischensubjekt-ANOVA oder Between-Subjects-ANOVA genannt.

Innerhalb der ANOVA für Gruppenvergleiche vergleichen wir verschiedene Patientengruppen miteinander. Wichtig ist dabei, dass jeder Patient nur einer Gruppe angehören kann. Kommt ein Patient mehr als einmal vor, liegt eine Messwiederholung vor und dann ist dies nicht die richtige Art von ANOVA für deine Fragestellung. Ein typisches Beispiel wäre die obige Fragestellung, in der wir die Wirkung verschiedener Medikamente und ggf. verschiedenen Dosierungen auf das Schmerzempfinden prüfen.

 

2. Die ANOVA für Messwiederholung:

….auch Innersubjekt-ANOVA oder repeated-measures-ANOVA genannt.

Sie benutzt du immer dann, wenn du dieselbe Gruppe von Patienten immer wieder gemessen hast. Ein Beispiel wären Patienten, deren Schmerzscore du in den ersten 3 Tagen post-OP immer wieder erhebst und vergleichst. Auch hier könntest du einen zweiten oder dritten Faktor mit aufnehmen, wenn du z. B. den Effekt EINES Schmerzmittels auf die Schmerzen innerhalb der ersten 3 Tage post-OP erheben wollen würdest und die Patienten jeweils vor und 1h nach der Schmerzmittelgabe fragen würdest, wie hoch ihre Schmerzen sind. Solange du also immer dieselben Patienten mehrfach misst, bist du bei der ANOVA für Messwiederholung richtig.

 

3. die ANOVA für Messwiederholung x Gruppenvergleiche:

…auch mixed model-ANOVA genannt.

Diesen Typ der ANOVA benutzt du wahrscheinlich am häufigsten. Er wird in der Medizin immer dann verwendet, wenn du verschiedene Gruppen über verschiedene Zeitpunkte immer wieder misst. Ein typisches Beispiel wären Patienten mit derselben Diagnose, die aber unterschiedliche Behandlungen bekommen und deren Behandlungserfolg du nach 1, 2 und 3 Monaten wiederholt erhebst.

 

Hast du deinen ANOVA-Typ erkannt? Dann lies im nächsten Schritt, wie du die entsprechende ANOVA berechnest.

 

So berechnest und berichtest du die ANOVA für Gruppenvergleiche in 9 Schritten

So berechnest und berichtest du die ANOVA für Gruppenvergleiche in 9 Schritten

Unser Studienbeispiel:

Nehmen wir noch mal unser hypothetisches Beispiel aus dem ersten Teil unserer Artikelserie zu ANOVA. Wir möchten testen, ob sich die Schmerzmittel Paracetamol und Ibuprofen bzgl. ihrer Wirkdauer unterscheiden. Aber nicht nur das. Wir möchten ebenfalls testen, ob die gegebene Dosis (hoch, mittel, niedrig) einen Einfluss auf die Wirkdauer besitzt. Aber am allermeisten interessiert uns, ob der Effekt der Dosis vielleicht sogar unterschiedlich ist, je nachdem welches Schmerzmittel gegeben wurde.

 

Dafür bilden wir 6 verschiedene Patientengruppen, die jeweils eines der beiden Medikamente bekommt und eine der drei Dosierungen. Jeder Patient kommt also genau einmal innerhalb der Studie vor.

 

Aus diesen 2 Faktoren resultieren verschiedene Effekttypen, die ich dir in Teil 1 dieser Artikelserie genau erklärt habe. Dort habe ich auch alle Begriffe erläutert. Hast du diesen Artikel also noch nicht gelesen, würde ich dir empfehlen, damit zu starten.

Schön, dass du wieder da bist. Nun geht’s weiter.

Kommen wir nun also zur rechnerischen Seite der ANOVA für Gruppenvergleiche. 

Hier möchte ich dir vorab schon mal alle Ängste nehmen: Alles, was ich dir jetzt erkläre, ist auch für dich absolut machbar, denn wir haben als Follow-up zu diesem Artikel gezielt Kursmaterialien entwickelt, die du auf deine Daten easy peasy anwenden kannst. Es geht mir in diesem Artikel daher nur darum, dass du die einzelnen Schritte der ANOVA für Gruppenvergleiche verstehst.

 

Bevor du startest:

Lade dir zuerst unser kostenloses Flowchart herunter. Dort sind alle Schritte der ANOVA für Gruppenvergleiche aufgeführt. So verlierst du nie den Überblick und weißt immer genau, welches Verfahren du wann rechnen musst.

Flowchart

ANOVA für Gruppenvergleiche

Schritt 1 – Die Vorbereitung deines Datenfiles

 

Schritt 1 ist immer der bedeutenste: Wir bringen Ordnung in dein Datenfile. Das ist immens wichtig, da jedes statistische Verfahren spezielle Anforderungen an das zugrundeliegende Datenfile stellt. Ist diese Ordnung falsch, funktioniert die Analyse nicht.

 

Die ANOVA für Gruppenvergleiche erfordert eine ID-Variable, sowie für jeden Faktor eine weitere Variable, die für jeden Patienten die ihm zugeordnete Faktorstufe enthält. Hier würdest du z.B. für den Faktor Medikament für jeden Patienten eintragen, ob er Paracetamol oder Ibuprofen erhalten hat. Für die Dosierung würdest du eintragen ob der Patient eine hohe, mittlere oder niedrige Dosierung bekommen hat.

 

Weiterhin benötigst du eine Variable, die die abhängige Variable enthält, also die beim Patienten gemessene Angabe zur Wirkdauer. Hast du das erledigt, ist dein Datenfile fertig.

↑ Zurück zur Übersicht

Schritt 2 – Deskriptive Statistik

 

Es ist immer gut einen Überblick über die eigenen Daten zu bekommen. Daher solltest du in Schritt 2 eine deskriptive Statistik mit Mittelwerten und Standardabweichungen für jede Gruppe innerhalb deiner Daten erstellen. Prüfe außerdem, ob dein Datensatz Ausreißer enthält. Falls ja, solltest du übelegen, was dahintersteckt. Sind Messfehler enthalten, oder ist dein Patient wirklich so krank, schwer oder groß? Weiterhin solltest du dir eine Grafik über alle Faktorstufen erstellen, damit du schon mal grob siehst, wie die Effekte aussehen. 

ANOVA für Gruppenvergleiche: Liniendiagramm

Schritt 3 – Berechnung der ANOVA für Gruppenvergleiche

 

In Schritt 3 berechnest du die ANOVA nun erstmals ganz konkret. Du bekommst dabei 3 Effekte: die Haupteffekte Schmerzmittel und Dosis, und den Interaktionseffekt, der beide Faktoren kombiniert. Was diese Effekte bedeuten und welche der wichtigste ist, erklären wir dir in Teil 1 dieser Artikelserie.

 

Die Berechnung der ANOVA erfolgt je nach verwendeter Software unterschiedlich. Wir berechnen sie in diesem Beispiel in R mit dem Paket aov (). Das ist ganz einfach, besonders, wenn man wie wir hier, automatische Vorlagen verwendet, in die man einfach nur seine Variablennamen eintippen muss. Wie das geht zeigen wir dir in unserem ANOVA-Kurs für Gruppenvergleiche, der dich Schritt-für-Schritt durch die ANOVA führt bis hin zu Vorlagen für deinen ANOVA-Bericht im Ergebnis- und Methodenteil. Da dir unser Kurs alle Arbeit abnimmt, gehen wir hier nicht auf die Einzelheiten des R-Codes ein.

↑ Zurück zur Übersicht

Schritt 4 – Prüfen der Annahmen

 

Nachdem du die ANOVA berechnest hast, prüfst du im nächsten Schritt, ob du sie überhaupt rechnen durften. Dieses Vorgehen ist zwar falsch herum, aber tatsächlich funktioniert das Prüfen der Annahmen der ANOVA viel besser, wenn man sie schon gerechnet hat. Und wir wollen doch so effizient wie möglich vorgehen, oder?

 

Hier sind folgende Kriterien wichtig:

1. Sind unsere Daten normalverteilt?

Um das zu beurteilen, kannst du QQ-Plots und den Shapiro-Wilk-Test nutzen (weiteratmen, mit unserem Kurs machst du das in 2 Minuten).

2. Liegt eine Varianzhomogenität vor?

Das sagt uns der Levene‘s Test, ist er nicht signifikant ist alles gut.

 

Hier teilt sich nun die Analyse in zwei Ströme auf, die aber vom Prinzip her sehr ähnlich sind.

Werden die Annahmen der ANOVA erfüllt oder sind deine Gruppen sehr groß (N > 30 pro Untergruppenkombination), dann darfst du einfach normal weitermachen und die Ergebnisse der parametrischen ANOVA aus Schritt 3 interpretieren.

 

Gibt es in deinem Datensatz ernsthafte Probleme, müsstest du nun eigentlich auf das nicht-parametrische ANOVA-Äquivalent, dem Kruskal-Wallis-Test ausweichen. Der hat aber leider nicht die Möglichkeit Interaktionen zu testen und das wollen wir ja eigentlich.

 

Daher haben wir dir in unserem ANOVA-Kurs ein Skript geschrieben, dass dir erlaubt, die bisherige ANOVA einfach weiter zu verwenden, allerdings überführen wir sie nun in eine robuste Form. Das heißt, wir machen sie unempfindlich gegenüber gravierender Annahmeverletzungen (das ist wirklich cool und viel eleganter als eine nicht-parametrische ANOVA).

 

Dafür bauen wir in die ANOVA ein sogenanntes Bootstrapping-Verfahren ein, dass mit Hilfe von 2000 Stichproben mit Zurücklegen eine robuste Teststatistik errechnet, aus der dann wiederum ein robuster p-Wert und eine robuste Effektstärke abgeleitet wird.

 

Was du dir hier nur merken musst ist, dass du weiterhin eine relativ normaldesignte ANOVA rechnen kannst, die wir aber unempfindlich auf mögliche Annahmeverletzungen gemacht haben.

 

Einen Code zu schreiben, der das kann und den du total einfach an deine Studie anpassen kannst, hat meinen R-Spezialisten Simon ziemlich viel Zeit und Nerven gekostet, aber ich finde es hat sich gelohnt!

↑ Zurück zur Übersicht

Schritt 5 – Effekte untersuchen

 

Egal welche ANOVA du gerechnet hast, die Ergebnisse liegen vor. Nun kannst du anhand der Signifikanzen entscheiden, welchen Effekt du weiter untersuchen möchtest: die Interaktion oder eine oder beide Haupteffekte? Die Antwort findest du im ersten Teil des Artikels – nur soviel – ist die Interaktion signifikant, kannst du die Haupteffekte ignorieren.

 

Hast du vorher eine parametrische ANOVA (also die ganz normale) gerechnet, machst du nun mit den t-Tests weiter, um deine Effekte zu verstehen. An dieser Stelle solltest du ggf für multiple Vergleiche korrigieren. Dabei gibt es verschiedene Methoden, wie z.B. die Bonferroni- oder die Holm-Korrektur, die unterschiedlich streng sind.

 

Je nachdem welche Effekte dich interessieren, kannst du dabei unterschiedlich vorgehen. In unserem Kurs zeigen wir dir genau wie das geht.

 

Hast du dich vorab für eine robuste ANOVA entschieden, machst du mit YUEN-Tests weiter, die ebenfalls robust sind und für multiples Testen korrigiert wurden.

 

Und da nicht nur die Signfikanz eines Tests wichtig ist, sondern auch die Stärke des Effekts (die sich übrigens nicht allein an der Signfikanz festmachen lässt), solltest du nun noch Effektstärken berechnen. In unseren Vorlagen erledigen wir das gleich automatisch mit, genau wie die dazugehörigen Konfidenzintervalle, die du benötigst, sobald es in Richtung einer Publikation gehen soll. 

 

 Schritt 6Geplante Kontraste

 

Hattest du vorab feste Hypothesen definiert, solltest du über eine elegante Alternative zu t-Tests nachdenken – die geplanten Kontraste. Geplante Kontrast ersetzen innerhalb eines Rechenschritts viele einzelne t-Tests und sind daher sehr praktisch.

 

Allerdings kann es ein bisschen schwierig sein sie anzulegen, in unserem Kurs haben wir daher viele verschiedene geplante Kontraste für dich entworfen, so kannst du direkt loslegen:

Wähle einfach einen Kontrast aus, der deine Hypothese widerspiegelt und schon bist du fertig mit deiner Datenanalyse.

↑ Zurück zur Übersicht

Schritt 7 – Grafik erstellen

 

Keine Statistik ohne schicke Grafik. Natürlich hast du schon deine Grafik aus Schritt 1, aber für eine Dissertation oder Publikation muss mehr her. Daher solltest du dir noch einmal genug Zeit nehmen, deine Grafik aufzuhübschen. Verwendest du unseren Kurs, kannst du das direkt mit Hilfe unseres letzten Skripts ratz fatz erledigen. Wir haben dabei extra darauf geachtet, dass du sie sowohl für deine Dissertation als auch für eine mögliche Publikation verwenden kannst und alle notwendigen Anforderungen erfüllt sind. 

 

Schritt 8 – Berichte die ANOVA im Methoden- & Ergebnisteil

 

Jetzt kommen wir zum finalen Teil, dem Berichten der ANOVA für Gruppenvergleiche im Ergebnis- und Methodenteil.

Hier gehst du folgendermaßen vor:

Methodenteil:

Zuerst beschreibst du im Methodenteil genau, welche Art der ANOVA du gerechnet hast, wie du dabei vorgegangen bist, welche Parameter du später wofür im Ergebnisteil berichten wirst und wie diese einzuordnen sind.

 

Für die ANOVA für Gruppenvergleiche aus unserem Beispiel würdest du beispielsweise berichten, dass du eine Zwischensubjekt-ANOVA mit den Faktoren Schmerzmittel (Ibuprofen vs. Paracetamol) und Dosis (hoch, mittel, niedrig) bzgl. ihrer Auswirkung auf die abhängige Variable Wirkdauer getestet hast.

 

Du solltest ebenfalls nennen, dass dies in den Haupteffekten Schmerzmittel und Dosis, sowie der Interaktion Schmerzmittel x Dosis resultierte. Weiterhin solltest du nennen, dass du im Falle einer signifikanten Interaktion diese mit Hilfe von post-hoc t-Tests weiter ausdifferenziert hast, und signifikante Haupteffekte nur dann weiter untersucht hast, falls die Interaktion nicht signifikant wurde. Verwendest du geplante Kontraste anstelle der t-Tests kannst du dies alternativ berichten.

 

Nenne auch, dass du die Annahmen der ANOVA geprüft hast und ob und wie du vorgegangen bist, falls die Annahmen nicht erfüllt wurden. In unserem Beispiel könntest du berichten, dass du eine robuste ANOVA berechnet hast, die mit Hilfe von Bootstrapping über 2000 Stichproben eine robuste Teststatistik ermittelt hat und die gefundenen Effekte anhand von Yuen-Tests weiter untersucht wurden.

 

Am Schluss solltest du aufzählen, welche Effektstärken du berechnet hast und wie diese zu interpretieren sind. Gib dazu Werte an, die vermitteln, was für die jeweilige Effektstärke ein kleiner Effekt, ein mittlerer Effekt und ein großer Effekt ist. Dies hilft dem Leser, deine Ergebnisse später zu bewerten.

Auf diese Weise hat dein Leser die Möglichkeit, dein Vorgehen genau nachzuvollziehen.

 

Ergebnisteil:

Im Ergebnisteil berichtest du nun die Ergebnisse der ANOVA. Schreib hier auf keinen Fall noch einmal über dein statistisches Vorgehen, das gehört in den Methodenteil. Berichte ausschließlich, was die ANOVA ergeben hat.

In unserem Beispiel würdest du berichten, dass sich innerhalb der ANOVA eine signifikante Interaktion Schmerzmittel x Dosis ergeben hat, die im Rahmen der post-hoc Testung ergab, dass die Wirkdauer beider Schmerzmittel mit steigender Dosis anstieg. Hierbei zeigte sich allerdings, dass dieser Anstieg für Ibuprofen von der mittleren zur hohen Dosis weniger stark ausfiel als für Paracetamol, sodass die signifikant höhere Wirkdauer von Ibuprofen im Vergleich zu Paracetamol, die in der niedrigen und mittleren Dosis zu finden war, in der hohen Dosis verschwand.

 

Folgendes solltest du beachten:

  • Berichte sowohl die statistischen Kennwerte der Interaktion, als auch alle relevanten post-hoc Tests samt Effektstärken.
  • Konzentriere dich inhaltlich auf die Effekte, die dich wirklich interessieren. Es ist nicht unbedingt notwendig jeden Untertest zu berichten. Belege dabei jede wertende Aussage mit einem dazugehörigen (signifikanten) Tests.
  • Berichte auch immer wieder deskriptive Statistiken, damit der Leser die wirkliche klinische Bedeutung der Effekte erkennen kann.
  • Berichte deine Ergebnisse objektiv, diskutieren und klinisch bewerten darfst du sie hier noch nicht. Das erfolgt in der Diskussion.

Wie du siehst, ist der Ergebnisteil eine recht objektive Sache, bei der du deine Resultate relativ neutral berichten solltest. Das kann manchmal langweilig wirken, ist aber notwendig, um die Grundordnung des wissenschaftlichen Schreibens einzuhalten.

↑ Zurück zur Übersicht

Schritt 9 – Die klinische Bewertung deiner Effekte

 

Prinzipiell hast du nun alles statistisch relevante erledigt – aber meiner Meinung nach fehlt noch das Wichtigste: Du musst deine Effekte noch klinisch interpretieren und bewerten. Das liegt daran, dass statistische Effekte Systematiken ausdrücken, die dir helfen sollen, abzuschätzen, ob deine gefundenen Ergebnisse verlässlich sind oder nur zufällig.

 

Die statistische Bedeutung eines Effekts ist somit nur die eine Seite der Medaille – die zweite ist die klinische Bedeutsamkeit des Effekts, dessen Bewertung du niemals vergessen solltest. Es kann z. B. sein, dass du hochsignifikante Effekte mit großen Effektstärken hast, die ermittelten Gruppenunterschiede aber minimal sind.

 

Welche klinische Relevanz hätte z. B. ein hochsignifikanter Haupteffekt Schmerzmittel, der dir anzeigt, dass Ibuprofen im Mittel  3 Minuten länger wirkt als Paracetamol? Genau, so gut wie keine.

 

Du solltest deine Effekte also immer anhand der deskriptiven Statistik klinisch einordnen. Diese klinische Bewertung erfolgt dabei nicht im Ergebnisteil, sondern erst später in der Diskussion. Im Ergebnisteil konzentrierst du dich einzig und allein darauf, deine Effekte objektiv zu berichten.

 

 

Hast du alle Schritte durchlaufen, hast du die ANOVA gemeistert:

Vom Aufbau des Datenfiles bis zur kritischen Einordnung der Ergebnisse.

Herzlichen Glückwunsch!

 

 

↑ Zurück zur Übersicht

Wie erstelle ich gute Grafiken in R?

Wie erstelle ich gute Grafiken in R?

In diesem Artikel zeige ich dir, wie du ganz einfach professionelle Grafiken in R erstellst.

Bevor meine Doktoranden ihre Dissertation abgeben, gebe ich ihnen immer zwei Tipps:

1. Kontrolliere, ob deine Grafiken bzw. Diagramme richtig gut sind
2. Lass dir dein Manuskript von einem Lektor editieren, damit alles schick aussieht.

Warum ist das wichtig?

Menschen sind visuelle Wesen. Sie lieben schöne Dinge. Deswegen kaufen wir Schmuck und achten darauf unsere Wohnungen ansprechend einzurichten. Schönheit erzeugt bei uns das Gefühl von Sicherheit und Wohlbefinden.

Wissenschaftler – und das sind deine Gutachter ja auch – sind da nicht anders: Sie lieben die Schönheit wissenschaftlicher Arbeiten. Und diese drückt sich über Struktur und Ordnung aus. Ein schön editiertes Manuskript mit guten Diagrammen erweckt bei ihnen den Eindruck, dass du als Doktorand auch in der Tiefe – also bei der Datenanalyse, der Literaturrecherche, und der Argumentation – strukturiert und gewissenhaft gearbeitet hast.

Gute Grafiken erhöhen also das Vertrauen in die wissenschaftliche Qualität deiner Dissertation – und glaub mir eins – das wirkt sich positiv auf die Benotung deiner Arbeit aus.

In dieser Blogartikelserie werde ich dir deshalb zeigen, wie du ganz einfach gute Grafiken für deine Dissertation erstellst.

Die Wahl des richtigen Diagramms

Bevor es aber losgeht, müssen wir erstmal klären, welche Grafiken du wann benutzen solltest.

Ist dir schon mal aufgefallen, dass manche Grafiken sehr schwer zu verstehen sind? Das liegt oft daran, dass die Art des Diagramms nicht zum Design der Studie passt. Die dargestellten Effekte sind in Folge kaum zu erkennen.

Um dieses Problem zu umgehen, solltest du dir bevor du damit beginnst deine Grafiken zu erstellen, genau überlegen, welche Fragestellungen deiner Grafik zugrunde liegen.

Um das herauszufinden, stelle ich dir im Folgenden die verschiedenen Diagrammtypen vor und erkläre dir, welche Fragestellungen bzw. Studiendesigns du mit ihnen am besten darstellen kannst und welche Variablentypen du dafür benötigst.

Hast du das für dich passende Diagramm gefunden, zeigen wir dir in einem kleinen Tutorial, wie du die entsprechende Grafik schnell erstellst.

1. Liniendiagramme

 

Ein Liniendiagramm darfst du immer dann verwenden, wenn du Mittelwerte und ein Streuungsmaß wie z.B. die Standardabweichung über mehrere Bedingungen hinweg darstellen möchtest.

Dafür müssen deine Daten normalverteilt und metrisch skaliert sein.

Für folgende Studiendesigns solltest du Liniendiagramme verwenden:

1.1 Messwiederholungen

Liniendiagramme sind definitiv für Messwiederholungen erfunden worden. Das liegt daran, dass Linien sehr gut dazu geeignet sind, einzelne Zeitpunkte der Messung optisch miteinander zu verbinden und somit Veränderungen über die Zeit hinweg klar herauszustellen.

Im einfachsten Fall sieht eine Liniengrafik für Messwiederholungen so aus:

Dargestellt wird die Veränderungen der Beweglichkeit über 3 Zeitpunkte hinweg: T1, T2 und T3. Da die Linie ansteigt, wird intuitiv klar: Die Beweglichkeit steigt über die Zeit hinweg an.

FYI: Das dazu gehörige Testverfahren wäre die Innersubjekt-ANOVA (= ANOVA für Messwiederholungen).

Eine einfache Anleitung für Liniendiagramme in R erhältst du hier:

 

1.2 Messwiederholungen mit verschiedenen Gruppen:

Dieses einfache Studiendesign kann sich aber auch etwas komplexer gestalten. Und gerade dann sind Liniengrafiken perfekt geeignet, um Effekte klar herauszustellen:

Im folgenden Liniendiagramm bekommen zwei Gruppen von Patientinnen entweder Ibuprofen (Gruppe 1) oder Paracetamol (Gruppe 2) und ihre Regelschmerzen zu behandeln. Dafür erhalten sie über die folgenden 3 Monate hinweg verschiedene Dosierungen: Einmal eine geringe, einmal eine mittlere und einmal eine hohe (in randomisierter Reihenfolge). Gemessen wird die Anzahl der Stunden, in denen die Frauen schmerzfrei sind.

R Grafiken Liniendiagramm Schmerzmittel

Anhand der ansteigenden Linien wird sofort klar: Eine höhere Dosierung scheint in einer längeren Wirkdauer zu resultieren, wobei sich dieser Effekt etwas stärker für Paracetamol zeigt, im Vergleich zu Ibuprofen. Und da die Linie von Ibuprofen über der von Paracetamol liegt, erkennt man leicht, dass Ibuprofen generell ein bisschen länger wirkt (zumindest in der niedrigen und mittleren Dosis).

Wie übersichtlich und einfach zu verstehen! Der gleiche Effekt als Balkendiagramm dargestellt, wäre ein pain in the ass gewesen. Daher solltest du für Studiendesigns wie dieses unbedingt Liniendiagramme verwenden.

Zur Info: Das dazu gehörige Testverfahren wäre die Mixed-Modell-ANOVA
(= ANOVA für Gruppenvergleiche x Messwiederholung).

Eine einfache Anleitung für Liniendiagramme in R erhältst du hier:

 

1.3 Verschiedene Gruppen über verschiedene Bedingungen:

Manchmal bietet sich an, Liniendiagramme auch für Studiendesigns ohne Messwiederholungen zu verwenden, in denen du verschiedene Gruppen über verschiedene Bedingungen vergleichst. Dafür ist es aber notwendig, dass du ein faktorielles Design verwendest.

Das würde z.B. dann vorliegen, wenn du wie im obigen Beispiel zwei Medikamente mit jeweils 3 verschiedenen Dosierungen vergleichst und die 6 Faktorkombinationen dann je einer Gruppe zuordnest.

In diesem konkreten Fall würdest du also 6 Gruppen miteinander vergleichen, wobei die Gruppen, die den gleichen Wirkstoff bekämen, durch eine Linie entlang der verschiedenen Dosierungen optisch verbunden wären.

Eine gute Alternative wäre hier allerdings auch ein Balkendiagramm für Mittelwerte.

 

Kurs R Grafiken

Zur Info: Das dazu gehörige Testverfahren wäre die Mixed-Modell-ANOVA
(= ANOVA für Gruppenvergleiche x Messwiederholung).

Eine einfache Anleitung für Liniendiagramme in R erhältst du hier:

 

Du siehst, mit dem Liniendiagramm kann man relativ komplexe Studiendesigns sehr übersichtlich und intuitiv darstellen – und das willst du, denn so sammelst du spielend Punkte bei deiner Betreuerin.

2. Boxplots

 

Boxplots verwendest du immer dann, wenn deine Variablen ordinal – oder metrisch skaliert, aber leider nicht normalverteilt.

Boxplots sind unsere Retter in der Not, da sie immer dann einspringen, wenn unsere Variablen nicht den Anforderungen des Liniendiagramms entsprechen.

In diesem Fall gibt uns der Boxplot sehr viel wertvolle Information über die Verteilung der Variablen.

R Grafiken Boxplots Schmerzempfinden

Boxplots können für folgende Studiendesigns verwendet werden:

Messwiederholungen, Messwiederholungen für verschiedene Gruppen, und für den Vergleich von verschiedenen Gruppen über verschiedene Bedingungen.

Du siehst, die passenden Studiendesigns sind genau gleich zu denen des Liniendiagramms – denn der Boxplot springt immer dann ein, wenn die Vorbedingungen des Liniendiagramms nicht erfüllt werden.

Da ein Boxplot sehr viele Informationen über die Verteilung der dargestellten Variablen bietet, wäre es schlicht weg zu unübersichtlich eine optische Verbindung wie Linien zwischen den Bedingungen oder Zeitpunkten einzubauen. Daher wird jede Bedingung anhand eines einzelnen Boxplots dargestellt. Die Interpretation der Effekte erfolgt über den im Boxplot dargestellten Median (=  die dicke Linie in der Mitte der Box) und ist demzufolge nicht so leicht wie im Liniendiagramm.

Wie du einen Boxplot interpretierst und wie du ihn ganz einfach in einer Grafik für deine Dissertation erstellen kannst, zeige ich dir in diesem Artikel.

 

FYI:
Die zugrundeliegenden Testverfahren für die beschriebenen Studiendesigns bei metrisch skalierten, aber nicht normalverteilten Variablen sind:

    • Für Messwiederholungen: die robuste ANOVA für Messwiederholungen oder die Friedmann – ANOVA
    • Für Messwiederholungen bei verschiedenen Gruppen: die robuste ANOVA für Messwiederholung x Gruppenvergleiche
    • Für den Vergleich verschiedener Gruppen über verschiedene Bedingungen: die robuste ANOVA für Gruppenvergleiche oder der Kruskall-Wallis Test.

Die zugrunde liegende Testverfahren für die beschriebenen Studiendesigns bei ordinal skalierten, Variablen sind:

    • Für Messwiederholungen: die Friedmann- ANOVA
    • Für den Vergleich von verschiedenen Gruppen: der Kruskall-Wallis Test.
    • Spezialfall ordinale Daten: Es kann immer nur ein einzelner Faktor getestet werden, also z.B. nur eine Gruppe über verschiedene Dosierungen hinweg, nicht mehrere. Interaktionen entfallen somit.

3. Balkendiagramme

 

Balkendiagramme werden auch Säulendiagramme genannt und in 2 Typen unterteilt:

Solche, die Mittelwerte darstellen und solche, die Häufigkeiten darstellen.

3.1 Balkendiagramme für Mittelwerte

Balkendiagramme für Mittelwerte verwendest du immer dann, wenn du Mittelwerte und ein Streuungsmaß wie z.B. die Standardabweichung für mehrere Gruppen über viele verschiedene Bedingungen hinweg darstellen möchtest.

Sie sind also die beste Lösung für alle Szenarien, die keine Messwiederholungen beinhalten.

 

Eine wichtige Voraussetzung ist dafür allerdings, dass deine Variablen normalverteilt und metrisch skaliert sind. Ist diese Voraussetzung nicht erfüllt, verwende lieber Boxplots.

R Grafiken Balkendiagramm für Mittelwerte

FYI: Das dazu gehörige Testverfahren wäre die Zwischensubjekt-ANOVA
(auch ANOVA für Gruppenvergleiche genannt).

Eine einfache Anleitung für Balkendiagramme für Mittelwerte in R erhältst du hier:

 

3.2 Balkendiagramme für Häufigkeiten:

Balkendiagramme für Häufigkeiten werden für nominale Variablen verwendet, also Variablen, die zwei oder mehr, klar voneinander abgrenzbare Ausprägungen haben (z.B. die Anzahl von Respondern bei einem oder mehreren verschiedenen Medikamenten).

Dabei können sowohl die absoluten (n) als auch die relativen Häufigkeiten (%) im Säulendiagramm dargestellt werden.

Es wäre dabei sowohl möglich Häufigkeitsvergleiche zwischen verschiedenen Gruppen als auch zwischen verschiedenen Messzeitpunkten darzustellen:

R Grafiken Balkendiagramm für Häufigkeiten

FYI:
Das richtige Testverfahren für den Vergleich von Häufigkeiten zwischen verschiedenen Gruppen wäre die Kreuztabelle mit dem Chi2-Test.

Das richtige Testverfahren für den Vergleich von Häufigkeiten zwischen verschiedenen Messzeitpunkten wäre die Kreuztabelle mit dem McNemar-Test.

Eine einfache Anleitung für Balkendiagramme für Häufigkeiten in R erhältst du hier:

 

 4. Streudiagramme

 

Streudiagramme werden immer dann verwendet, wenn du bei deiner Stichprobe zwei verschiedene Maße erhoben hast und dann die  Zusammenhänge zwischen diesen zwei metrischen, zwei ordinalen oder einer metrischen und einer ordinalskalierten Variablen darstellen möchtest. 

Sie eignen sich prima dafür, die Stärke und die Richtung dieser Zusammenhängen herauszuarbeiten und diese dann in Form von Korrelationsgeraden darzustellen.

Das Beste ist aber, dass man Streudiagramme (auch Scatter Plots genannt) nach Gruppen getrennt erstellen kann, und somit den Vergleich von Effekten stark vereinfachen kann.

In der folgenden Grafik erkennst du zum Beispiel intuitiv, dass mehr Training für Frauen keinen positiven Effekt auf die Ausdauer hat, bei Männern aber schon (das ist natürlich glatt gelogen).

R Grafiken Streudiagramm

FYI:
Das dazu gehörige Testverfahren wäre für zwei metrische Variablen die Korrelation nach Pearson.
Für zwei ordinalskalierte Variablen oder die Korrelation einer ordinalen und einer metrischen Variablen die Korrelation nach Spearman.

Eine einfache Anleitung für Streudiagramme in R erhältst du hier:

5. Diagramme für Zeitverläufe

 

Diagramme für Zeitverläufe benötigst du immer dann, wenn du die Häufigkeit bestimmter Vorkommnisse über sehr viele einzelne Zeitpunkte (z.B. Tage, Wochen, Monate) hinweg darstellen möchtest.

Sie werden insbesondere im Bereich der Epidemiologie häufig verwendet. Diesen Diagrammtyp erläutere ich hier nicht, wir haben dir aber hier eine Anleitung erstellt, mit der du entsprechende Diagramme ganz leicht erstellen kannst.

Grafik Zeitverlauf Covid Todesfälle
R Grafiken Banner Onlinekurs
R Grafiken Banner Onlinekurs Mobile
So erstellst du mühelos ein Balkendiagramm für Häufigkeiten in R – Video-Tutorial!

So erstellst du mühelos ein Balkendiagramm für Häufigkeiten in R – Video-Tutorial!

In diesem Artikel zeigen wir dir, wie du schnell und einfach ein professionelles Balkendiagramm für Häufigkeiten in R erstellst.

Und keine Angst, dafür musst du nicht programmieren können, sondern einfach nur nachmachen, was wir dir im folgenden Schritt-für-Schritt-Video zeigen.

Bevor es aber losgeht:

In diesem Artikel verwenden wir das Tool ggplot, das du kostenlos innerhalb von R verwenden kannst und mit dem du professionelle Grafiken in wenigen Minuten erstellen kannst. Wie du R installierst und wie R aufgebaut ist, zeigen wir dir in diesem Video.

Die Wahl des richtigen Diagramms

Balkendiagramme für Häufigkeiten sind sehr gut dafür geeignet die Häufigkeiten von Merkmalen, wie z.B. dem Vorliegen einer Komorbidität darzustellen.

Als Vorbedingung benötigst du daher nominalskalierte Variablen, also Variablen, die du ganz klar in Klassen einteilen kannst und deren Ausprägungen keine fließenden Übergänge haben.

Ist dies nicht der Fall, dann verwende lieber Balkendiagramme für Mittelwerte, Liniendiagramme oder Boxplots.

Möchtest du lieber relative Häufigkeiten (z.B. %) anstelle von absoluten Häufigkeiten darstellen, dann zeigen wir dir dies ebenfalls im Video.

Eine Übersicht über alle verschiedenen Diagrammtypen, und eine Erklärung wann du sie am besten verwendest, findest du hier.

So, nun geht es aber los!

Folgendes Balkendiagramm werden wir im Videotutorial erstellen:

R Grafiken Balkendiagramm für Häufigkeiten

In diesem Video findest du nun eine einfache Schritt-für-Schritt-Anleitung für dein Balkendiagramm:

Falls dir das schon mal geholfen hat, du aber deine Diagramme noch schneller erstellen möchtest, dann schau doch mal hier in unseren Mini-Kurs für das Erstellen von Grafiken in R.

In diesem Kurs geben wir dir die hier verwendeten R-Skripte und Vorlagen für viele verschiedene Diagrammtypen. Wir zeigen dir, wie du die Grafiken sehr schnell nach deinen Wünschen anpassen kannst – und zwar ohne Vorkenntnisse und jegliche Erfahrung in R.

R Grafiken Banner Onlinekurs
R Grafiken Banner Onlinekurs Mobile

Lade dir hier die Formelsammlung für deinen Bland-Altman-Plot herunter

Melde dich für meinen Newsletter an und erhalte sofort das PDF!

You have Successfully Subscribed!

10 % Rabatt auf unsereWorkshops & Kurse im Onlineshop!

Trage dich hier für Dr. Ortmanns beste Maildizin ein und erhalte regelmäßige Rabatte, Tipps und Coachinginhalte für deine empirische Promotion

You have Successfully Subscribed!

Lade dir hier die Checkliste für deinen Methodenteil herunter

Melde dich für meinen Newsletter an und erhalte sofort das PDF!

You have Successfully Subscribed!


Jetzt 10 % Rabatt auf alle

Workshops & Kurse sichern!

You have Successfully Subscribed!

Downloade dir hier das Flowchart für deine ANOVA

Melde dich für meinen Newsletter an und erhalte sofort das PDF!

You have Successfully Subscribed!

Lade dir hier die Vorlage für den Aufbau deines Datensatzes herunter

Melde dich für meinen Newsletter an und erhalte sofort die Excel-Vorlage!

You have Successfully Subscribed!