Einführung in R für Ärzte
In diesem Artikel gibt R-Fachmann Simon Wilms eine Einführung in R für Ärzte und zeigt, wie der Einstieg in das Statistiktool einfach und effizient gelingt.
Ich bin Simon und arbeite seit 2018 als R-Spezialist in Magdalenes Team. Ich liebe R und werte meine Daten jetzt schon viele Jahre mit nichts anderem aus. R ist mein Ding!
Wenn ich eines sicher weiß, dann, dass in R wirklich jede Analyse machbar ist.
Heute arbeite ich unheimlich effizient mit R und kann zum Beispiel publikationsreife Grafiken in Minutenschnelle erstellen. Früher habe ich das in SPSS gemacht und das Ergebnis konnte sich sehen lassen – allerdings hat es ewig gedauert!
Das war aber nicht immer so. Die einzelnen Analysen konnte ich mir schon zu Beginn ganz gut selbst beibringen, aber mir fehlten die Grundlagen. Ohne Grundlagen stolpert man sich in R sehr, sehr langsam vorwärts und hört schnell wieder auf (fragt Magdalene, die konnte vor unserem Kurs ein Lied davon singen). In vielen, vielen einsamen Stunden habe ich mir die Grundlagen zusammengegoogelt, Bücher gelesen, verschiedene Pakete ausprobiert, bis ich endlich den effektivsten Weg für meine Datenanalyse gefunden hatte. Das war eine Offenbarung.
R ist eigentlich gar nicht kompliziert
Man muss einfach nur verstehen, wie es geht! Da ich anderen ebenfalls einen einfachen Einstieg in R ermöglichen möchte, gebe ich mittlerweile R-Kurse für Wissenschaftler und Doktoranden und zeige ihnen, wie sie die Datenanalyse in R am schnellsten erlernen können.
Um auch dich von R zu überzeugen, möchte ich dir in diesem Artikel einfach mal eine kleine Einführung in R geben (und dich missionieren, ist ja klar). Damit du problemlos in die Datenanalyse mit R starten kannst, zeige ich dir in diesem Video, wie du R und RStudio installierst und mache dich mit der Oberfläche vertraut:
Lass uns starten!
Im Grunde ist R nichts anderes als ein Taschenrechner. Ok, es ist ein recht komplexer Taschenrechner, aber man kann damit ganz normal rechnen:
oder
Weiterhin kann man auch sogenannte „logische Vergleiche“ anwenden, zum Beispiel: „Ist die Zahl 5 größer als die Zahl 3?“
Ja, das stimmt (R sagt „TRUE“). Wir können auch fragen: „Ist 5 das Gleiche wie 3?“
Nö. Die Rechnerei kann ich problemlos mit den logischen Vergleichen kombinieren: „Ist die Summe aus 3 und 2 größer als das Produkt von 2 und 2?“
Ja.
Arbeiten mit Datensätzen – Die Basics
Zugegeben, um es bloß als Taschenrechner zu nutzen, brauchst du R nicht zu lernen, aber solche auf den ersten Blick sinnlosen Basics werden später relevant, zum Beispiel beim Filtern von Daten. Ich habe hier mal einen Beispieldatensatz mitgebracht: In diesem wurde der Einfluss des Geschlechts (m = männlich, w = weiblich), dreier Medikamente (A, B, C) und des Cholesterinspiegels auf das Risiko, einen Herzinfarkt zu bekommen (hoch, niedrig), untersucht.
Einzelne Variablen in Datensätzen (hier Cholesterol) werden in R mit dem $-Zeichen angesprochen:
Da sind sie, unsere ganzen Cholesterolwerte. Mit eckigen Klammern kann ich Variablen (oder auch ganze Datensätze) filtern.
Und hier kommen schon die logischen Vergleiche ins Spiel. So wählst du alle Cholesterolwerte aus, die größer sind als 5:
Siehst du? Ein Befehl und alles ist erledigt!
Dabei muss R immer wissen, woher die Variablen, auf die ich mich beziehe, kommen (nämlich aus dem Datensatz data). Deshalb schreibe ich auch immer ein data$ davor. Das mag auf den ersten Blick anstrengend wirken, macht das Ganze aber auch super flexibel, denn so kann ich mich in einem Befehl auf mehrere verschiedene Datensätze beziehen.
Daten flexibel filtern
Aber zurück zum Datenfiltern: Die Filterbedingung kann ich beliebig komplex gestalten.
Jetzt möchte ich alle Werte über 5 herausfiltern, aber nur, wenn die teilnehmende Person weiblich ist:
Mehrere Filterbedingungen kann ich also mit dem Und-Zeichen (&) verknüpfen. Das Oder-Zeichen ist übrigens |. Hat man sich solche Kniffe einmal gemerkt, wird man zunehmend schneller als beim Klicken durch ein Programm, wie das in anderen Auswertungsprogrammen der Fall ist.
Der pipe operator
Jetzt möchte ich dir gerne noch den pipe operator %>% vorstellen. Was das sein soll? Es ist eines meiner Lieblingssymbole in R. Der pipe operator bedeutet dabei so viel wie „nimm, was davorsteht, und mache damit, was danach steht“. Hier ein Beispiel aus der deskriptiven Statistik:
Also: Nimm was davor steht (den Datensatz data) und mache damit, was danach steht (nämlich: Wende den Befehl get_summary_stats an). Im Befehl get_summary_stats steht dann noch die Variable, für die ich mich interessiere (cholesterol). Mit type = „mean_sd“) teile ich R mit, dass ich nur den Mittelwert und die Standardabweichung haben möchte.
So weit, so gut. Aber was, wenn ich ebendiese deskriptive Statistik nur für die Frauen haben möchte?
Antwort: Mehr pipe operators!
In diesem Fall sage ich R also „Nimm die Daten und wende den Befehl filter an. Innerhalb von filter soll die Bedingung geschlecht == „w“) gelten. Dann nimm die gefilterten (!) Daten und wende, wie gerade eben auch, get_summary_stats an. Klingt logisch, oder?
Ich kann sogar noch mehr Befehle dazwischenschalten. Bevor ich mit den gefilterten Daten irgendetwas mit get_summary_stats berechne, kann ich sie mit group_by noch gruppieren, zum Beispiel nach Medikament (A, B, C):
Und weil das noch nicht genug ist, erlaubt mir group_by sogar, mehrere Gruppierungsvariablen einzusetzen. Hier gruppiere ich nach Medikament und Geschlecht, bevor ich den Mittelwert und die Standardabweichung berechne:
Wenn man es so Schritt für Schritt aufschreibt, werden die komplexesten Befehle auf einmal kinderleicht.
Wichtig ist nur, dass man diese Grundlagen einmal richtig lernt. Als ich das erste Mal das komische Symbol %>% gesehen habe, habe ich nur Spanisch verstanden. Außerdem gibt es in R Tausende Befehle, sodass meistens viele Wege nach Rom führen.
Für jede noch so schwierige Analyse gibt es mittlerweile ein Paket und für Standardanalysen gibt es zig Pakete.
Dadurch kann es schwierig sein, allein den Einstieg in R zu finden.
Daher habe ich in Zusammenarbeit mit Magdalene einen Grundlagenkurs für die Analyse deiner medizinischen Studiendaten in R entwickelt. Ich habe dabei all jene Pakete und Befehle ausgewählt, mit denen ich die besten Erfahrungen gemacht habe, und zeige dir Schritt für Schritt, wie R funktioniert.
Grundlagenkurs
Statistik für Mediziner
Du siehst: R ist ein fantastisches Tool. Wofür ich am Anfang noch Stunden gebraucht habe,
erledige ich heute in Minuten. Und du schaffst das auch!
Statistik für Mediziner – Der Grundlagenkurs
In dem Kurs geht es zunächst um grundlegende Dinge. Wie strukturiere ich meine Daten? Wie filtere ich Daten und erstelle Teildatensätze? Wie erstelle ich neue Variablen? Wie gehe ich mit fehlenden Werten um? Das sind alles Dinge, die möglicherweise in anderen Statistikprogrammen schneller von der Hand gehen, denn dort musst du anstelle eines Codes nur irgendwo draufklicken.
Wer aber einmal die Arbeit auf sich nimmt und wirklich versteht, wie R funktioniert und das bloße Datenmanagement beherrscht, der wird in Zukunft viel Zeit und Geld sparen (denn: R ist kostenlos!).
Den größten Vorteil bietet R aber immer dann, wenn man einzelne Veränderungen im Ausgangsdatensatz vornehmen muss. Während man in diesem Fall in SPSS die komplette Analyse wiederholen muss (Klick, Klick, Klick, Klick – ich will ja nicht lästern …), kannst du in R dein Skript einfach neu starten und schon hast du alle Änderungen eingearbeitet.
Ich behaupte: Wenn zwei Personen R bzw. SPSS lernen, dann ist die Person mit SPSS in den ersten Wochen schneller. Nach einer gewissen Übungszeit kann die Person, die R gelernt hat, die Auswertungen aber deutlich effizienter durchführen und wunderschöne Grafiken fünfmal so schnell erstellen. Es zahlt sich also aus!
Damit du also einen maximalen Vorteil hast, haben Magdalene und ich diesen ersten R-Kurs so konzipiert, dass du nicht nur lernst, wie R funktioniert, sondern am Ende die komplette Vorverarbeitung deines Datensatzes abgeschlossen, eine perfekte deskriptive Analyse deiner Daten erstellt und die ersten leichten Tests gerechnet hast. Dieser Kurs lohnt sich also in jeder Hinsicht.
In dem R-Onlinekurs begleiten wir Dich von Anfang an, beginnend mit der Installation von R und R Studio. Im folgenden Video bekommst Du einen kleinen Einblick in den Kurs: