Zusammenhänge verstehen: Die Korrelationsanalyse in der medizinischen Statistik

Zusammenhänge verstehen: Die Korrelationsanalyse in der medizinischen Statistik

Zusammenhänge verstehen: Die Korrelationsanalyse in der medizinischen Statistik

  • Warum werden in der medizinischen Statistik eigentlich so häufig Korrelationen berechnet? Und was genau ist eine Korrelation?
  • Kann man Korrelationen immer berechnen? Und was sollte man bei der Berechnung und Interpretation von Korrelationen beachten?
  • Was sind Scheinkorrelationen und verdeckte Korrelationen?
  • Und warum sind Korrelation und Kausalität nicht das Gleiche?

In diesem Artikel werden wir diese Fragen beantworten (und noch viel mehr!), ohne dass du dafür tiefere statistische Kenntnisse benötigst.

Aber zunächst noch ein Hinweis, bevor es losgeht:
Wenn man in der Statistik von „der Korrelation“ spricht, meint man in der Regel die Korrelation nach Pearson (kurz: Pearson-Korrelation oder auch Produkt-Moment-Korrelation). Es gibt allerdings auch für spezielle (und deutlich seltenere) Fälle andere Korrelationsarten, die man berechnen kann. Wir werden diese Fälle ganz am Schluss dieses Artikels behandeln. Bis dahin ist mit „Korrelation“ immer die Pearson-Korrelation gemeint.

 

Ganz wichtig:
Um die Pearson-Korrelation zwischen zwei Merkmalen sinnvoll berechnen zu können, sollten beide Variablen mindestens intervallskaliert sein.

Zusammenhang und linearer Zusammenhang

In der medizinischen Statistik findet man häufig Untersuchungsfragen der Art „Gibt es einen Zusammenhang zwischen der Dosis von Medikament X und der Herzfrequenz (oder der Stärke von Kopfschmerzen, der Dauer einer Infektion, oder, oder, oder)?“

 

Eine (!) Möglichkeit, Fragen dieser Art nachzugehen, ist die Korrelationsanalyse. Der Knackpunkt solcher Fragestellungen ist, dass das Wort „Zusammenhang“ aus statistischer Perspektive ziemlich viele Bedeutungen haben kann. Mit einer Korrelationsanalyse untersucht man allerdings nur eine ganz bestimmte Form des Zusammenhangs, nämlich den linearen Zusammenhang zwischen zwei Variablen. Ganz allgemein dient die Korrelation dazu, die Stärke des linearen Zusammenhangs zwischen zwei Merkmalen zu quantifizieren, also in einer Zahl auszudrücken.

 

Aber was genau ist ein linearer Zusammenhang? Das wollen wir dir gleich an einem einfachen Beispiel erklären.

 

Angenommen, du möchtest den Zusammenhang zwischen der Dosis eines Medikaments und der Herzfrequenz untersuchen. Du erhebst dazu nun bei 100 Personen beide Merkmale und schaust dir die erhobenen Daten anschließend anhand eines Streudiagramms (einer Punktwolke) an. Du solltest dir übrigens immer, wenn es um die Analyse von Zusammenhängen zwischen zwei Variablen geht, deine Daten grafisch veranschaulichen. Warum du das tun solltest, wird gleich deutlich werden.

 

Die folgende Grafik zeigt dir sechs mögliche (und natürlich vollkommen fiktive) Punktwolken, die man für dieses Beispiel bekommen könnte. Es gibt natürlich noch unzählige andere Möglichkeiten, wie die Punktwolke aussehen könnte.

Ohne große statistische Kenntnisse zu haben, könnte man die Punktwolken nun folgendermaßen beschreiben:

 

Fall a) Hier lässt sich ein deutlicher Zusammenhang erkennen. Mit einer höheren Dosis geht tendenziell auch eine höhere Herzfrequenz einher. Man spricht hier auch von einem positiven linearen Zusammenhang („je mehr von dem einen, desto mehr von dem anderen“).

 

Fall b) Hier lässt sich ebenfalls ein deutlicher Zusammenhang erkennen. Mit einer höheren Dosis geht hier jedoch tendenziell eine niedrigere Herzfrequenz einher. Man spricht hier auch von einem negativen linearen Zusammenhang („je mehr von dem einen, desto weniger von dem anderen“).

 

Fall c) Hier lässt sich ebenfalls ein deutlicher Zusammenhang erkennen. Der Zusammenhang ist hier allerdings nicht linear, sondern „komplexer“. Man nennt das manchmal auch einen „U-förmigen“ oder auch quadratischen Zusammenhang.  Inhaltlich bedeutet das hier, dass mit niedrigeren Dosen eine höhere Herzfrequenz einhergeht, die Herzfrequenz dann allerdings mit zunehmender Dosis (nicht linear) abnimmt und dann ab einer gewissen Dosis wieder (nicht-linear) zunimmt.

 

Fall d) Hier lässt sich ebenfalls ein deutlicher Zusammenhang erkennen, dieser ist aber auch komplexer als in den Fällen a) und b). Hier steigt die Herzfrequenz zwar zunächst mit der Dosis, ab einer bestimmten Dosis verringert sich dann jedoch die Herzfrequenz mit zunehmender Dosis.

 

Fall e) Hier lässt sich kein Zusammenhang erkennen. Unabhängig von der Dosis bleibt die Herzfrequenz im Großen und Ganzen konstant.

 

Fall f) Hier lässt sich kein Zusammenhang erkennen. Die Punkte scheinen vollkommen zufällig verteilt zu sein.

 

Die Sache mit der Korrelationsanalyse ist nun, dass Zusammenhänge wie in Fall c) und d) dargestellt, nicht von der Korrelation „erfasst“ werden. Heißt: Man sieht sofort, dass ein ziemlich eindeutiger Zusammenhang vorliegt, berechnet man jedoch die Korrelation, dann wäre diese in etwa so hoch wie in den Fällen e) und f), bei denen kein Zusammenhang vorliegt.

Daher unbedingt merken:

 

  1. Mit der Korrelation erfasst man nur den linearen Zusammenhang zwischen zwei Merkmalen. Vereinfacht gesagt heißt „linear“ dabei, dass man, wie du in Fall a) und b) sehen kannst, die Punktwolke gut durch eine Gerade repräsentieren kann, die einen positiven (wie in Fall a) oder negativen (wie in Fall b) Anstieg hat. Liegt ein anderer Typ von Zusammenhang vor (wie in Fall c und d), dann ist die Berechnung der Korrelation nicht sinnvoll.
  2. Daher solltest du dir bei der Analyse von Zusammenhängen zwischen zwei Merkmalen als ersten Schritt deine Daten immer grafisch veranschaulichen, um beurteilen zu können, ob die Berechnung der Korrelation überhaupt sinnvoll ist.

Nachdem wir diesen wichtigen Punkt geklärt haben, werden wir uns nun anschauen, welche Werte die Korrelation überhaupt annehmen kann und wie die Größe der Korrelation mit der „Form“ der zugehörigen Punktwolke zusammenhängt.

 

Interpretation der Korrelation

 

Angenommen, du hast dir also nun deine Daten grafisch veranschaulicht und die Berechnung der Korrelation ist tatsächlich sinnvoll (heißt: es liegt kein nicht-linearer Zusammenhang vor). Was bedeutet dann die Größe der Korrelation?

 

Die Korrelation soll die Stärke des linearen Zusammenhangs in einer Zahl ausdrücken. Daher wäre es nützlich, wenn

 

  1. die Korrelation den Wert 0 annimmt, wenn kein linearer Zusammenhang vorliegt,
  2. die Korrelation umso größer wird, je größer der lineare Zusammenhang ist
  3. du anhand der Korrelation sehen kannst, ob ein positiver linearer Zusammenhang („je mehr von dem einen, desto mehr auch von dem anderen“) oder ein negativer linearer Zusammenhang („je mehr von dem einen, desto weniger von dem anderen“) vorliegt, und
  4. die Größe der Korrelation unabhängig von Einheit, Mittelwert und Standardabweichung der beiden Variablen wäre, sodass die Interpretation der Größe der Korrelation für jede mögliche Untersuchungssituation immer die gleiche ist und du somit auch Korrelationen aus unterschiedlichen Studien miteinander vergleichen kannst.

Glücklicherweise erfüllt die Korrelation all diese Eigenschaften! Danke, Statistik! 😉

 

Normierung des Korrelationskoeffizienten

Berechnest du die Korrelation, dann liegt diese immer im Bereich zwischen  -1 und +1. Das Vorzeichen gibt dir dabei an, ob ein positiver (+) oder ein negativer (-) linearer Zusammenhang zwischen den beiden Merkmalen vorliegt. Ist die Korrelation 0, liegt kein linearer Zusammenhang vor. Je näher die Korrelation bei den beiden „Endpunkten“ +1 bzw. -1 liegt, umso „stärker“ ist auch der positive bzw. negative lineare Zusammenhang zwischen beiden Variablen. Ist die Korrelation genau +1 oder -1, dann liegen sämtliche Punkte der Punktwolke auf einer Geraden (mit positivem oder negativem Anstieg).

 

In den folgenden Grafiken kannst du einen Eindruck davon bekommen, wie für verschiedene mögliche „Punktwolkenformen“ die zugehörige Größe der Korrelation aussieht.

Die Korrelation zwischen zwei Variablen wird in der Statistik auch kurz mit r bezeichnet und steht hier über der jeweiligen Punktwolke.

Wir beginnen mit Beispielen für die positive Korrelation: 

 

Und hier das Gleiche noch einmal für die negative Korrelation:

Man kann hier wunderbar sehen, dass mit zunehmender Größe der Korrelation die Form der Punktwolke immer „schmaler“ wird und sich immer weiter einer Geraden annähert.

 

Bei einer Korrelation von +1 oder -1, also wenn alle Punkte auf einer Geraden liegen, spricht man auch von einem „perfekten linearen Zusammenhang“ oder auch von einem „deterministischen Zusammenhang“. Dieser Fall wird natürlich in Praxis so gut wie nie auftreten (und bei Patientendaten schon dreimal nicht).

 

Zur weiteren Interpretation der Größe der Korrelation greift man häufig auf eine Konvention von Cohen (1988) zurück, nach der es sich bei Korrelationen von

  • .1 ≤ |r| < .3 um „kleine Zusammenhänge“
  • .3 ≤ |r| < .5 um „mittlere Zusammenhänge“ und
  • |r| > .5 um „große Zusammenhänge“

handelt (|r| steht hier für die absolute Größe der Korrelation, also unabhängig vom Vorzeichen).

WICHTIG: Eine Korrelation von 0 oder nahe 0 bedeutet NICHT zwangsläufig, dass kein Zusammenhang zwischen den beiden Merkmalen besteht, sondern eben nur, dass kein linearer Zusammenhang besteht. Würdest du etwa die Korrelation von Fall c) von oben berechnen, dann würdest du eine Korrelation von fast 0 (r = – 0.0034, wenn du es genau wissen möchtest) bekommen, obwohl ein nahezu perfekter, aber eben nicht-linearer, Zusammenhang zwischen Dosis und Herzfrequenz besteht!

Um diesen Punkt nochmal anschaulich zu verdeutlichen zeigt die folgende Graphik wieder die Punktwolke von Fall c), diesmal ist zusätzlich die zugehörige Regressionsgerade eingezeichnet.

Das Thema dieses Artikels ist zwar die Korrelation, aber es besteht ein enger inhaltlicher Zusammenhang zwischen der Korrelation und der einfachen linearen Regression. Ganz einfach gesprochen lässt sich anhand des Anstiegs der Regressionsgeraden die „Richtung“ der Korrelation ablesen. Liegt eine positive Korrelation vor, ist auch der Anstieg der Regressionsgeraden positiv. Liegt hingegen eine negative Korrelation vor, ist auch der Anstieg der Regressionsgeraden negativ. Bei einer Korrelation von 0 hat die Regressionsgerade einen Anstieg von 0, ist also einfach nur eine „waagerechte Linie“, wie es hier in Fall c) vorliegt. 

 

Außerdem solltest du bei der Interpretation deiner Korrelation auch nicht in die folgenden Fallen stolpern…

 

Stolperfallen bei der Interpretation

 

1. Korrelation vs. Kausalität

 

Dass Korrelation und Kausalität zwei verschiedene Paar Schuhe sind hast du vermutlich schon einmal gehört. Die Korrelation ist erst einmal nichts anderes als eine formal-statistische Eigenschaft zwischen zwei Variablen und sagt für sich genommen überhaupt nichts über irgendwelche möglichen Ursache-Wirkungszusammenhänge aus.

 

Beispielsweise wurde in ziemlich vielen (und ziemlich oft zitierten) Studien eine positive Korrelation zwischen dem Spielen von Ego-Shootern und der Aggressionsbereitschaft gefunden. Aber heißt das nun, dass das vermehrte Spielen von Ballerspielen die höhere Aggressionsbereitschaft kausal verursacht? Und sollte man deshalb nicht besser alle Ballerspiele verbieten?

 

Diese Frage ist schwer zu beantworten, aber sie lässt sich definitiv nicht allein über Korrelationsanalysen beantworten. Es ist natürlich möglich, dass das Spielen von Ballerspielen die Aggressionsbereitschaft erhöht. Ebenso möglich ist es allerdings auch, dass Personen mit erhöhter Aggressionsbereitschaft eben gerne Ballerspiele spielen. Und es kann natürlich auch sein, dass ein oder mehrere andere Faktoren (z.B. genetische Dispositionen) sowohl die erhöhte Aggressionsbereitschaft als auch die Liebe zu Ballerspielen verursacht.

 

Es gibt selbstverständlich auch Fälle, bei denen bestimmte Möglichkeiten von vornherein unplausibel sind. In unserem Beispiel ist es etwa ziemlich unplausibel, dass eine erhöhte Herzfrequenz eine höhere Medikamentendosis „verursacht“.

 

Als Faustregel kannst du dir aber merken: Du solltest generell die Korrelation zwischen zwei Merkmalen für sich allein genommen nicht kausal interpretieren.

2. Scheinkorrelationen

 

Häufig findet man auch substanzielle Korrelationen zwischen Merkmalen, die in keinerlei (theoretischem) Bezug zueinanderstehen. So lässt sich etwa ein fast perfekter linearer Zusammenhang (r = .996) zwischen der Scheidungsrate in Maine (Bundesstaat in den USA) und dem Margarinekonsum pro Kopf in den USA feststellen. Ein Fall für die nächste Ausgabe von Science? Besser nicht…

 

Solche Korrelationen bezeichnet man auch als Scheinkorrelationen. Der Punkt dabei ist, dass man alles Mögliche miteinander korrelieren kann und dann eben hin und wieder auch durchaus substanzielle Korrelationen findet, die aber auf inhaltlich-theoretischer Ebene vollkommen bedeutungslos oder „zufällig“ sind.

 

Für dich heißt das: Du solltest in deinen Daten nicht einfach alle möglichen Korrelationen berechnen (nur weil die lediglich einen Klick entfernt sind und du es kannst), sondern wie auch bei allen anderen statistischen Analysen immer theoriegeleitet vorgehen. Das heißt, du solltest aufgrund klinisch-theoretischer Überlegungen begründete Vermutungen haben, warum bestimmte Merkmale in einem Zusammenhang stehen sollen.

 

Eine wirklich nette Zusammenstellung wirklich lustiger Scheinkorrelationen lässt sich übrigens unter

https://www.tylervigen.com/spurious-correlations

finden.

3. Verdeckte Korrelationen/Simpson-Paradox

 

Ein weiterer Punkt, den du bei Korrelationsanalysen stets beachten solltest, ist, dass deine berechnete Korrelation nicht „absolut“ zu verstehen ist. Was ist damit gemeint? Das lässt sich am besten wieder anhand eines einfachen Beispiels erklären, das auch als „Simpson-Paradox“ bekannt ist (obwohl es sich genau genommen gar nicht um ein Paradoxon handelt, aber es klingt halt toll).

 

Nehmen wir mal an, du hättest für unser Beispiel von oben (Medikamentendosis und Herzfrequenz) folgende Punktwolke bekommen (zur Verdeutlichung ist auch hier wieder die zugehörige Regressionsgerade eingezeichnet):

Berechnest du jetzt für diese Daten die Korrelation zwischen Medikamentendosis und Herzfrequenz, dann ist diese hier r = – 0.54. Es besteht also ein recht großer negativer linearer Zusammenhang, was du auch an dem negativen Anstieg der Regressionsgerade ablesen kannst.

 

Nehmen wir weiter an, du würdest jetzt die Männer und die Frauen deiner Stichprobe (farblich) getrennt betrachten und bekämst dann folgende Punktwolke:

Beachte, dass die Datenpunkte bei beiden Punktwolken vollkommen identisch sind! Würdest du jetzt aber die Korrelation zwischen Dosis und Herzfrequenz für die Männer und Frauen getrennt berechnen, dann wäre die sowohl für die Männer als auch für die Frauen in etwa r = 0.6, also jeweils ein recht großer positiver linearer Zusammenhang! Dass es sich hier um jeweils positive lineare Zusammenhänge handelt kannst du wiederum an den beiden Regressionsgeraden ablesen, die hier für die Frauen und die Männer getrennt eingezeichnet sind.

 

Was soll dir dieses Beispiel zeigen? Wenn du Korrelationsanalysen durchführst, dann ist das Ergebnis immer von deiner konkreten „Datenkonstellation“ abhängig, und zwar insbesondere von weiteren Variablen, die du in deine Analyse(n) mit einbeziehst (in dem Beispiel das Geschlecht).

 

Das Problem ist allerdings, dass du bei der Datenerhebung natürlich gar nicht vollständig wissen kannst, welche Variablen für die Analyse wichtig sein könnten. So könnte etwa in unserem Beispiel der lineare Zusammenhang zwischen Dosis und Herzfrequenz wieder anders aussehen, wenn man jetzt noch zusätzlich getrennt nach sozioökonomischem Status, Vorliegen einer bestimmten Krankheit, BMI usw. auswerten würde.

Du siehst also, die eigentliche Schwierigkeit bei Zusammenhangsanalysen besteht nicht darin, diese durchzuführen (das macht ein Programm für dich), sondern die Ergebnisse klinisch-inhaltlich angemessen zu interpretieren! 

Und dafür ist auch (wieder mal) der Unterschied zwischen Stichprobe und Population wichtig!

Stichprobe und Population

 

Bisher haben wir ja nur darüber gesprochen, wie man für eine konkrete Stichprobe die Korrelation berechnet. In der Regel möchtest du aber nicht (nur) wissen, ob ein linearer Zusammenhang zwischen zwei Merkmalen deiner Stichprobe besteht, sondern ob ein solcher Zusammenhang in der Population, aus der deine Stichprobe stammt, existiert. Oder kurz gesagt: Du möchtest einen inferenzstatistischen Test durchführen.

 

In unserem Beispiel möchtest du also nicht nur wissen, ob sich ein Zusammenhang zwischen Medikamentendosis und Herzfrequenz bei den 100 von dir untersuchten Personen finden lässt, sondern eben ganz allgemein, auf alle Personen bezogen.

 

Glücklicherweise folgt auch der Korrelationstest der üblichen Logik inferenzstatistischer Tests, die du in unserem Grundlagenartikel dazu nachlesen kannst.

 

Die Korrelation auf Populationsebene wird mit ρ (sprich: rho) bezeichnet und die Null- und Alternativhypothese für diesen Test lauten demzufolge:

H0: ρ = 0

H1: ρ ≠0

Die H0 besagt also, dass auf Populationsebene kein linearer Zusammenhang besteht und die (ungerichtete) H1 besagt, dass ein linearer Zusammenhang besteht, wobei nicht spezifiziert ist, ob dieser positiv oder negativ ist. Gelegentlich findet man auch Situationen, in denen die H1 gerichtet ist, also spezifisch auf einen positiven bzw. negativen linearen Zusammenhang getestet wird.

 

Als Ergebnis deines Tests bekommst du wieder einen p-Wert und wenn dieser kleiner ist als dein α, dann solltest du die H0 verwerfen. Und hier gilt natürlich auch wieder, dass der p-Wert von der Stichprobengröße beeinflusst wird und du dein Ergebnis auf den 3 Ebenen statistische Signifikanz, Effektgröße und klinische Bedeutsamkeit interpretieren solltest. Falls dir das alles nichts sagt: Das alles ist ausführlich in unserem Grundlagenartikel erklärt!

 

Was du tun kannst, wenn deine beiden Variablen nicht intervallskaliert sind, erklären wir dir nun im letzten Abschnitt.

Spezialfälle der Korrelation

 

Wenn deine beiden Merkmale nicht intervallskaliert sind, dann lassen sich glücklicherweise trotzdem Zusammenhangsanalysen durchführen, in denen nicht die Produkt-Moment-Korrelation, sondern eine andere „Korrelationsvariante“ berechnet werden kann. Ohne näher darauf einzugehen, wie genau diese verschiedenen Varianten berechnet werden, wollen wir dir hier eher einen Überblick anbieten.

 

1. Fall: Eine intervallskalierte und eine ordinalskalierte Variable oder zwei ordinalskalierte Variablen

Für diesen Fall lässt sich die Rangkorrelation, auch Spearman-Korrelation genannt, berechnen. Auch diese liegt immer zwischen – 1 und +1 und lässt sich prinzipiell so interpretieren wie die Produkt-Moment-Korrelation.

 

Die Spearman-Korrelation ist mit Abstand der am häufigsten auftretende „Spezialfall“ und nach der Produkt-Moment-Korrelation die am zweithäufigsten verwendete Art der Korrelationsanalyse.

 

2. Fall: Eine intervallskalierte Variable und eine dichotome Variable

Hier lässt sich die punktbiseriale Korrelation berechnen, auch diese liegt immer zwischen  -1 und +1. Die Interpretation hängt hier davon ab, welche Ausprägung der dichotomen Variable mit ‚0‘ und welche mit ‚1‘ kodiert ist. Eine positive punktbiseriale Korrelation bedeutet dabei, dass ein positiver Zusammenhang zwischen der intervallskalierten Variable und der Ausprägung der dichotomen Variable, die mit ‚1‘ kodiert ist, vorliegt. Wurde beispielsweise das Geschlecht (0 = Männer, 1 = Frauen) und die Herzfrequenz erhoben und du bekommst eine positive punktbiseriale Korrelation, dann bedeutet das inhaltlich, dass die Frauen deiner Stichprobe eine höhere Herzfrequenz aufweisen als die Männer (und bei einer negativen Korrelation genau andersherum).

 

Gelegentlich gibt es auch Situationen, in denen eine intervallskalierte Variable künstlich dichotomisiert wird. So könnte man etwa das Alter von Patienten lediglich in 2 Kategorien („jung“ und „alt“) einteilen. Für diesen Spezialfall (eine intervallskalierte und eine künstlich dichotomisierte Variable) lässt sich auch die biseriale Korrelation berechnen.

 

Die biseriale Korrelation kann auch Werte außerhalb des Bereiches zwischen -1 und +1 annehmen. Zusätzlich ist die Berechnung nur dann sinnvoll, wenn die beiden intervallskalierten Variablen normalverteilt sind. Im Zweifel solltest du daher stets die punktbiseriale Korrelation vorziehen.

 

3. Fall: Eine ordinalskalierte Variable und eine dichotome Variable

In diesem Fall lässt sich die biseriale Rangkorrelation berechnen. Der Wertebereich ist hier wieder zwischen -1 und +1 und die Interpretation analog zur punktbiserialen/biserialen Korrelation.

 

4. Fall: Zwei dichotome Variablen

Hast du zwei dichotome Variablen, dann kannst du den Φ-Koeffizienten (sprich: phi) oder Cramérs V bestimmen. Beide Größen sind ist eng verwandt mit dem Kontingenzkoeffizienten χ2 (sprich: Chi2), der sich allgemein für zwei kategoriale/qualitative Variablen berechnen lässt. Der Φ-Koeffizient kann auch Werte außerhalb des Bereiches zwischen -1 und +1 annehmen und die Interpretation des Koeffizienten hängt hier wesentlich von der Kodierung der beiden dichotomen Variablen ab.

 

Möchtest du den ΦKoeffizienten oder Cramérs V im Rahmen des χ2-Tests berechnen, haben wir hier einen Onlinekurs zum Thema erstellt.

 

Wir haben dir zum besseren Überblick die verschiedenen Korrelationsarten bei unterschiedlichen Skalentypen der beiden Variablen in folgender Tabelle noch einmal zusammengefasst.

Variable 1

Variable 2 Intervall Ordinal Dichotom
Intervall Pearson-Korrelation

Rangkorrelation
(Spearman)

Punktbiseriale Korrelation
Ordinal

 

Rangkorrelation (Spearman)  Biseriale Rangkorrelation
Dichotom

 

 

 

Φ-Koeffizient

 

Da die Berechnung einer Korrelation (egal welche) wirklich nur einen Klick erfordert und du aber durch simples Anklicken und Berechnen leider auch schnell in eine der dargestellten Stolperfallen taumeln kannst, solltest du, wenn du Zusammenhangsanalysen durchführst, bestenfalls immer nach dem folgenden Schema vorgehen:

 

  1. Überlege dir vorher, welche inhaltlich-theoretischen Vermutungen du bzgl. des Zusammenhangs zwischen den beiden Merkmalen hast und warum du diese hast! Gibt es vielleicht noch eine Variable, die du zusätzlich mit in deine Analysen einbeziehen solltest (siehe Simpson-Paradox)?
  2. Veranschauliche dir deine Daten in einer Grafik (ja, unbedingt)!
  3. Überlege anhand der graphischen Veranschaulichung deiner Daten, ob die Berechnung einer Korrelation überhaupt für deinen Fall sinnvoll ist!
  4. Berechne die Korrelation und führe ggf. einen statistischen Test durch!
  5. Interpretiere die Korrelation und das Testergebnis auf den 3 Ebenen statistische Signifikanz, Effektgröße und inhaltlich-klinische Bedeutsamkeit!

Nicht-lineare Zusammenhänge analysieren

 

Falls du bei der graphischen Veranschaulichung deiner Daten feststellen solltest, dass bei dir ein nicht-linearer Zusammenhang (z.B. ein quadratischer wie in Fall c) von oben) vorliegt, dann solltest du natürlich die Korrelation nicht berechnen (weder die Korrelation nach Pearson noch die nach Spearman)! Aber was kannst du in diesem Fall alternativ verwenden, um die Größe des Zusammenhangs zwischen deinen beiden Variablen zu beschreiben?

 

Hier kommt es ein wenig darauf an, was das genaue Ziel deiner Untersuchung ist. Möchtest du die Daten eher in einem Regressionskontext analysieren, dann könntest du auf nichtlineare oder polynomiale Regressionen zurückgreifen. Beides sind recht komplexe Verfahren, die wir dir an anderer Stelle erklären.  Wenn du allerdings „lediglich“ die Stärke des Zusammenhangs zwischen deinen beiden Variablen erfassen und inferenzstatistisch testen möchtest, dann ist die sog. Distanzkorrelation (distance correlation) die Methode der Wahl!  Das ist ein recht neues und im Vergleich zur „normalen Korrelation“ mathematisch deutlich anspruchsvolleres Konzept, das sich aber generell auf jede „Art“ von Zusammenhang (selbst lineare) anwenden lässt. Eine einfache Berechnung der Distanzkorrelation in SPSS ist bisher nicht möglich, in R hingegen lässt sich die Distanzkorrelation über einen einfachen Befehl berechnen. Vielleicht also ein weiterer Grund, sich näher mit R auseinanderzusetzen… 😉

Wie R funktioniert erklären wir dir übrigens ebenfalls in unserem Grundlagenkurs.

 

Und ganz zum Schluss noch ein kurzer Ausblick: Die Korrelation (Pearson-Korrelation) zwischen zwei Variablen wird uns im Kontext der einfachen linearen Regression wieder begegnen und dort eine zentrale Rolle spielen. Die Regressionsgerade soll ja gerade den linearen Zusammenhang zwischen der abhängigen Variable und dem Prädiktor widerspiegeln und „wie gut“ die Regressionsgerade deine Daten beschreibt ist dann letztendlich von der (absoluten) Größe der Korrelation zwischen abhängiger Variable und Prädiktor abhängig.

 

Freu dich also schon, auf das, was kommt und leg bis dahin schon einmal mit der Berechnung deiner Korrelation los!

Viel Spaß!

Nie wieder Ärger beim Datenimport – so legst du deinen Datensatz richtig an!

Nie wieder Ärger beim Datenimport – so legst du deinen Datensatz richtig an!

Du hast deine Daten gesammelt und möchtest nun wissen, wie du deinen Datensatz in Excel aufbereitest, damit die spätere statistische Analyse deiner Dissertationsdaten reibungslos abläuft?

 

Dann bist du hier genau richtig!

Bevor es losgeht:

 

Öffne deinen Datensatz in Excel und arbeite die folgenden Punkte Schritt für Schritt durch!

Lade dir vorab unsere Vorlage für deinen Datensatz herunter und lerne direkt am Beispiel die Do’s and Don’ts der Dateneingabe!

Hast du alle Punkte abgehakt, sollte das Einlesen deines Datensatzes fehlerfrei funktionieren und die weitere Datenanalyse deutlich leichter gelingen! 

Eine wichtige Info vorab:

 

Patientennamen, Adressen oder andere Informationen, mit denen außenstehende Personen deine Studienteilnehmer identifizieren können, müssen aus dem Datensatz entfernt werden!

In den meisten Studien liegen schon passende ID-Variablen vor, falls nicht kannst du selbst eine Variable erstellen.

Die Paarung zwischen deiner neuen ID und dem Patientennamen musst du in einer zweiten, nicht zugänglichen Excel-Liste abspeichern!

Schritt 1: Kontrolliere deinen Datensatz auf Störzeichen

Datenanalyseprogramme sind manchmal schwer von Kapee. Jede kleinste Störung kann eine Fehlermeldung erzeugen. Daher müssen wir deinen Datensatz von Störern säubern. Kontrolliere, ob folgende Zeichen in deinem Datensatz vorhanden sind und entferne sie. Sonst wird der Datenimport nicht reibungslos funktionieren:

• Leerzeichen
• Sonderzeichen
• Umlaute

 

Die Suche per Hand ist dir zu aufwendig?

Kleiner Trick: Falls dein Datensatz sehr groß ist nutze die Suchfunktion von Excel, um die jeweiligen Zeichen zu finden! Das funktioniert sogar für Leerzeichen!

Excel-Vorlage

Aufbau deines Datensatzes

Schritt 2: Die richtige Struktur deines Datensatzes

 

Datensätze haben einen einheitlichen Aufbau, an den du dich immer halten kannst! Baue deinen Datensatz nach der folgenden Struktur auf, dann erkennen R und SPSS deine Variablen sofort:

  1. Datensätze unterteilen sich in Spalten und Zeilen. Jede Spalte stellt eine Variable dar, jede Zeile einen Patienten. Auf diese Weise kannst du pro Patienten alle relevanten Merkmale in einer Zeile übersichtlich darstellen.
  2. Die oberste Zeile (Zeile 1) enthält IMMER die Variablennamen, alle folgenden Zeilen die Daten der einzelnen Patienten
  3. Verschiedene Messzeitpunkte werden in einer separaten Variablen abgelegt. So nimmt jeder Patient trotz mehrerer Zeitpunkte weiterhin immer nur 1 Zeile im Datensatz ein (= Wide-Format)!
  4. Jeder Variablenname muss kurz und prägnant sein und darf keine Leerzeichen, Sonder- oder Satzzeichen enthalten! Unterstriche sind erlaubt.
    Beispiel: „Gewicht_in_kg_prae_op“ ist korrekt, „Gewicht (kg) prä op“ ist falsch
  5. Verwende keine übergeordneten Zeilenbeschriftungen („alle Kreislaufparameter“, „alle Variablen prä-OP“, etc), um Variablen zu gruppieren.
    Es darf immer nur eine Zeile mit Variablennamen geben, niemals zwei!

Übernehme die richtige Struktur deines Datensatzes am besten direkt aus unserer Vorlage, dann kann nichts schiefgehen!

Schritt 3: Variablentypen richtig editieren

 

In jedem Datensatz gibt es 4 verschiedene Variablentypen – metrische, ordinale und nominale Variablen, sowie Variablen mit weiteren Infos, wie Datumsangaben oder Textfeldern.

Mit Textfeldern, wie z.B. Kommentaren können Datenanalyseprogramme nicht rechnen, sie werden daher einfach als Zeichenfolgen deklariert und haben die Tendenz dir das Leben schwer zu machen.

Wenn du auf permanente Fehlermeldungen im Rahmen deiner Datenanalyse keine Lust hast, achte penibel auf die folgenden Punkte:

Metrische Variablen

Metrische Variablen sind das Gold deines Datensatzes. Mit ihnen kannst du die besten Analysen rechnen. Bereite Sie daher gut auf, damit sie dir später keinen Ärger machen:

  • metrische Variablen sind numerisch und dürfen daher niemals Textzeichen in den Datenfeldern enthalten
  • Maßeinheiten gehören in den Variablennamen (Gewicht_in_kg) oder in das Codebook, nicht in die Wertefelder
  • Ausnahme R: Fehlende Werte dürfen als Textzeichen „NA“ codiert werden

 

Ordinalskalierte Variablen

  • Ordinalskalierte Variablen sind rangbasiert. D.h. ihre Ausprägungen drücken eine klare Reihenfolge aus, also ein mehr oder weniger.
  • Je nach Inhalt werden sie im täglichen Gebrauch als Zeichenfolge dargestellt (z.B. „UICC Stadium“) oder als Zahl codiert (VAS-Skalen).
  • Am einfachstes ist es wenn du ordinalskalierte Variablen in deinem Datensatz numerisch codierst und erst später im Rahmen der weiteren Datenanalyse Wertelabel zuordnest, die dir zeigen wofür die Zahlen stehen. So hast du keinerlei Probleme beim Import deiner Daten.
  • Die Codierung einer ordinalskalierten Variablen muss dabei die Ränge ihrer Ausprägungen widerspiegeln:
  •  „UICC 0“, „UICC I“, „UICC II“, „UICC III“ codierst du als 0, 1, 2, 3 und nicht als 3, 0, 2, 1! Nur auf diese Weise werden deine statistischen Tests später sinnvolle Ergebnisse liefern

Nominalskalierte Variablen

Nominalskalierte Variablem (auch kategoriale Variablen genannt) dürfen in R, aber nicht in SPSS als Zeichenfolge codiert werden. Dabei solltest du so wenig Zeichen wie möglich verwenden. Die Codierung einer  Ausprägung muss dabei immer gleich bleiben!

  • Codiere deine Variablen sparsam (Geschlecht: „m“ / „w“ oder 0 / 1 statt „männlich“ / „weiblich“). So bleibt dein Datensatz übersichtlich.
  • Wähle immer dieselbe Codierung pro Variablenstufe! Wechsele nicht hin und her! Kontrollgruppe = CG und nicht manchmal CG, manchmal TAU (treatment as usual). Ansonsten werden sie später bei der Datenanalyse verschiedenen Gruppen zugeordnet!

Datumsvariablen

Datumsvariablen werden am besten mit einem typischen Datumsformat angegeben (z.B. 01.02.2023). Behalte dabei immer das gleiche Format für die verschiedenen Datumsvariablen bei!

Schritt 4: Leg dir ein Codebook an

 

Mit Codierungen wird dein Datensatz klar und übersichtlich, was alles massiv vereinfacht! Außerdem klappen viele Prozesse innerhalb deiner Datenanalyse reibungsloser. Zuerst mag dich eine Datenmatrix aus Zahlen verwirren, aber keine Angst! Im Laufe deiner Datenanalyse wirst du den Codes wieder ihre ursprünglichen Label zuordnen, und dir so die spätere Interpretation und Darstellung deiner Ergebnisse erleichtern.

Erstelle daher ein Codebook, das für jede Variable Codierungen und Wertelabel zusammenführt!

In unserem Beispieldatensatz haben wir schon eine Vorlage für dein Codebook erstellt!

Schritt 5: Fehlende Werte richtig codiert?

 

Fehlende Werte sind ganz normal, sollten aber als solche auch gekennzeichnet werden, damit R oder SPSS wissen, womit sie es zu tun haben.

Fehlende Werte solltest du daher immer labeln:

  • in R immer als NA (not available)
  • in SPSS: leer lassen oder -999 (oder eine andere für diese Variablen sehr unwahrscheinliche Ausprägung auswählen)

Tipp: Nach dem Datenimport musst du R und SPSS natürlich sagen, wie dein fehlender Wert gelabelt ist. Wir zeigen dir in unserem Grundlagenkurs wie das geht!

Schritt 6: Säubere deinen finalen Datensatz

 

Datenanalyseprogramme sind echte Diven. Sie lesen am liebsten klarstrukturierte Datensätze ohne überflüssigen Schnickschnack ein. Du musst also unbedingt darauf achten alles Überflüssige zu entfernen!

Dazu zählen:

  • Kommentare oder unnötige Variablen,
  • Subauswertungen unter dem Datensatz (Vorauswertungen in Excel, wie Mittelwerte, die du vorab berechnet hast),
  • interne Formeln / Zellenbezüge / Querverweise. Excel hat hier viele Möglichkeiten dein spätere Datenanalyse zu stören, entferne sie also unbedingt und ersetze sie durch reine Zahlen (kopiere dazu das entsprechende Zahlenfeld und füge es als reine Zahl wieder ein (rechte Maustaste Einfügeoption „123“).

Extra-Tipp:

Speichere dir verschiedene Versionen deines Datensatzes ab! Den großen mit Informationen, die dir vielleicht noch einmal nützlich sein werden und den finalen für deine Datenanalyse. So hast du im Zweifelsfall alle Infos parat!

Schritt 7: Lese deinen Datensatz ein und starte deine Datenanalyse

 

Nun hast du es geschafft, dein Datensatz steht!

 

Doch wie geht es nun weiter?

 

Als nächstes werden wir deinen Datensatz gemeinsam in R einlesen und mit der statistischen Analyse deiner Daten beginnen!

 

Wie du das machst und was zu tun ist, wenn du keine Ahnung von den Grundlagen der medizinischen Datenanalyse hast, zeigen wir dir in unserem Grundlagenkurs „Statistik für Mediziner“.

Los geht’s!

Woran erkennt man eine gute Statistik-Beratung?

Woran erkennt man eine gute Statistik-Beratung?

Statistik ist für viele Mediziner ein Buch mit 7-Siegeln. Total verständlich – denn sie findet innerhalb des Medizinstudiums kaum statt.

 

Sobald aber die empirische Doktorarbeit ansteht, haben Ärzte ein Problem, denn Statistik ist ein wichtiger Teil der medizinischen Dissertation, den man nicht umgehen kann.

 

Gerade für arbeitende Ärzte, die wenig Zeit haben, ist die Sache daher schnell klar: Ich hole mir Hilfe! Aber wie findet man einen guten Statistikberater?

 

In diesem Artikel erkläre ich dir, woran du eine qualitativ hochwertige Statistik-Beratung erkennst, und wie du bei deiner Suche am besten vorgehst.

 

 

 

Gute Beratung bekommst du vom Spezialisten

 

Das Allerwichtigste zuerst. Als Arzt hast du ziemlich spezielle Fragestellungen, die sich sehr von denen anderer Fächer unterscheiden. Daher hat sich innerhalb der Statistik ein Bereich entwickelt, der sich mit genau diesen fachspezifischen Problemen beschäftigt: Die Medizinstatistik oder auch Biostatistik, genannt.

 

Natürlich machen auch Ärzte einfache Gruppenvergleiche oder Zusammenhangsanalysen, sehr oft aber haben sie spezielle Fragen wie z.B.: Überleben Krebspatienten mit Chemotherapie länger als solche mit Bestrahlung? Oder: Gibt es Cut-Off-Werte in bestimmten Blutparametern, die mir das spätere Auftreten von Alzheimer vorhersagen?

 

Oftmals verstecken sich in den erhobenen Patientengruppen Störvariablen, die deine ganze Untersuchung ruinieren können, wenn du sie nicht zwischen den Gruppen angleichst. Wie man das macht wissen viele Statistikberater nicht, da Sie sich hauptsächlich mit anderen Fächern wie z.B. den Sozialwissenschaften oder der Politologie beschäftigen.

 

Es ist daher immer ratsam, sich von Anfang an einen Berater zu suchen, der sich auf Statistik für Mediziner spezialisiert hat.

 

 

Du promovierst?

 

Dann brauchst du einen Berater, der wissenschaftlich gearbeitet hat

 

Eine Dissertation ist eine wissenschaftliche Arbeit. Natürlich suchst du eigentlich einen Statistik-Berater, der dir möglichst effizient bei der Datenanalyse hilft. Das Problem ist aber, dass die Statistik kein isolierter Teil deiner Dissertation ist. Sie ist eher das Herz deiner Doktorarbeit (ganz bildlich gesprochen). Hier laufen alle Fäden deiner Forschungsfrage zusammen, werden innerhalb der Datenanalyse in Ergebnisse transformiert, und bilden dann die Grundlage deiner Diskussion.

 

Ein guter Statistikberater sollte also viel Erfahrung darin haben, deine spezifischen Forschungsfragen zu verstehen (oftmals muss er sie sogar mit dir zusammen entwickeln), und sie bei Bedarf in sinnvolle Hypothesen und Analysen übersetzen können, um die Ergebnisse im Anschluss in dein Manuskript zu integrieren.

 

Das klappt nur, wenn dein Berater schon viele eigene Manuskripte erstellt und – ganz wichtig- veröffentlicht hat.

 

Nur dann hat er immer wieder hartes, wissenschaftliches Feedback erhalten und gelernt, wie wissenschaftliches Arbeiten und Veröffentlichen funktioniert.

 

Berater, die bisher wenig wissenschaftlich gearbeitet haben können das nicht, weil sie die Analyse als isolierte Einheit betrachten. Ihnen übermittelst du während der Beratung ein festes Set an Variablen, mit denen sie rechnen sollen, und dazu eine zu testende Hypothese, das war‘s.

 

Im Gegenzug bekommst du eine Ausgabedatei oder eine kurze Dokumentation mit statischen Kennwerten und dann ist die Beratung beendet. Was du mit den Ergebnissen machst, ist dann deine Sache. Und eins kann ich dir sagen: Ab dem Level der Promotion lautet die Antwort: nicht viel.

 

Ich kann dir daher nur empfehlen gezielt nach Beratern zu suchen, die dir anhand ihrer Publikationsliste nachweisen können, dass Sie als Wissenschaftler gearbeitet und publiziert haben. Diese Statistikberater werden dir dabei helfen können Statistik und Manuskript zu verbinden.

 

 

 

Dein Statistikberater muss sich mit Medizin auskennen

 

Wenn ich meine Klienten frage, warum sie mit mir zusammen arbeiten, kommt eigentlich fast immer die gleiche Antwort: Weil ich Ihre Thematik verstehe.

 

Es gibt zwar den Mythos von der easy-peasy, auf einer Pobacke abzusitzenden Medizinerdissertation, die man quasi im Vorbeigehen beraten kann, aber meiner Erfahrung nach ist dem nicht so.

 

Medizinische Dissertationen untersuchen – nun ja – medizinische Fragestellungen. Und die physiologischen Prozesse unseres Körpers sind sehr komplex. Das Gleiche gilt für Behandlungsmethoden und – abläufe. Man muss sie wirklich verstehen, um sinnvolle statistische Analysen durchführen zu können.

 

Zusätzlich sollte ein guter Statistikberater auch viel Erfahrungen mit Patientendatensätzen mitbringen, da deren Qualität sich deutlich von denen der experimentellen Forschung unterscheidet.

 

Wenn dir also jemand erzählt, es wäre sehr einfach medizinische Datensätze auszuwerten, dann bist du definitiv bei der falschen Beratung gelandet.

 

 

 

Du hast keine gute akademische Betreuung? Such dir einen promovierten Berater

 

Jetzt kommen wir zu einem sehr speziellen Problem, das glücklicherweise nicht jeden Promovierenden betrifft, aber dennoch sehr häufig bei Medizinern zu finden ist: Dein Promotionsbetreuer ist nicht ausreichend für dich da.

 

Auf den ersten Blick ist das kein offensichtliches, mit Statistikberatung zusammenhängendes Problem, allerdings entwickeln sich daraus meist grundlegende Probleme, die über den Erfolg einer medizinische Promotion entscheiden können, und die ein promovierter Statistikberater, der selber ausreichend lange im Wissenschaftsbetrieb gearbeitet hat, gut adressieren kann.

 

Viele meiner Kunden kommen zu mir, weil sie mit Ihrer Dissertation ziemlich allein dastehen. Oft interessieren sich Ihre Betreuer nicht für Ihre Doktorarbeit, oder es fehlt schlicht weg die fachliche Kompetenz, um den Doktoranden wirklich helfen zu können.

 

Meine Aufgabe als Statistikberater ist es dann, mich in die Lage des Betreuers (nicht des Doktoranden!) hineinzuversetzen, und zusammen mit dem Doktoranden eine mehr oder weniger „fertige“ Dissertation zu erstellen, die bis auf Kleinigkeiten abgesegnet werden kann und möglichst wenig Engagement vom Betreuer erfordert.

 

Dabei geht es nicht um Ghostwriting, sondern um akademische Erfahrung, die man bekommt, wenn man selber jahrelang Doktoranden betreut und Forschung betrieben hat.

 

Ein unerfahrener Statistikberater, der nicht promoviert ist, kann in diesen Situationen nicht weiterhelfen. Im besten Falle hat man nach der Statistikberatung die Ergebnisse der Datenanalyse, aber vom Abgeben der Dissertation ist man noch sehr weit entfernt.

 

Traue niemals einer 24/7- Hotline

 

Wenn du auf Facebook, Instagram oder Google unterwegs bist, ist es ziemlich sicher, dass du schon mal die Werbung großer Beratungen gesehen hast. Berufsbedingt sehe ich die ständig, denn Facebook weiß ja, womit ich mich beschäftige.

 

Es gibt sehr große Firmen, die sich auf Statistikberatung spezialisiert haben und mit 24h-Hotlines werben, professionelle Jingles in der Warteschleife abspielen und sehr kompetent wirken.

 

Ich kenne diese Beratungen sehr gut und bin mir sicher, dass es auch dort unter Umständen möglich ist, gute Statistikberatung zu bekommen. Was ich aber auch ganz sicher weiß, ist, dass in diesen Firmen ein Gleichgewicht zwischen Gewinnspanne der Firma, Beraterhonorar und Werbekosten gefunden werden muss.

 

Werbung ist extrem teuer, für Google und Facebook ist das Schalten von Werbeanzeigen eine Gelddruckmaschine. Wer wirbt muss ein hohes Werbebudget einplanen, gerade dann wenn Werbung die einzige Akquisemethode ist und die Skalierung des Umsatzes davon abhängt.

 

Rechnet man den eingeplanten Gewinn des Unternehmens und die Gehälter der Mitarbeiter mit ein, wird schnell klar, dass es nur zwei Stellschrauben gibt, an denen man drehen kann, um die Firma am Laufen zu halten: Die Preise für die Statistikberatung – und die Honorar der vermittelten Statistikberater.

 

Während die eine Seite maximiert wird, wird die andere minimiert. Doch wer arbeitet für ein geringes Honorar? In den allermeisten Fällen sind das Studenten oder Berater mit wenig Erfahrung. Wenn du dir also einen erfahrenen Berater wünschst, such dir besser eine kleine, schon länger bestehende Statistikberatung, bei der du von Beginn an weißt, mit wem du zusammen arbeiten wirst.

 

Finanziell wird es auf einen gleichhohen oder sehr wahrscheinlich sogar geringeren Preis hinauslaufen. Aber hier bezahlst du für Qualität, eine Rund-um-Betreuung und fachliche Expertise, anstelle für Werbung, Gewinnmaximierung und Overhead.

 

Ganz wichtig: Die durchwachsende Qualität der Statistikberater der großen Beratungen kann man auch daran abschätzen, wieviele Berater in diesen Firmen arbeiten. Ich habe selber ein kleines Team aus Co-Beratern, von deren Kompetenz ich absolut überzeugt bin. Meine Berater sind alle promoviert, spezialisiert auf Medizinstatistik, haben etliche nationale und internationale Publikationen veröffentlicht und schon viele klinische Studien und medizinische Doktorarbeiten betreut.

 

Aber um diese Berater zu finden, habe ich mich wirklich auf den Kopf stellen müssen.

 

50 oder mehr von ähnlich hochqualifizierten Beratern finden zu können, halte ich somit für relativ unwahrscheinlich.

 

 

 

So findest du gute Statistikberater im Netz

 

Jetzt wo du weißt, warum es nicht gut ist, Beratungen auszuwählen, die dich mit Werbung bombardieren, stellt sich natürlich die Frage, wie du die guten Statistikberatungen denn dann findest?!

 

Ganz einfach: Benutze Google, aber mit Strategie.

 

Eine gute Freundin und Unternehmensberaterin meinte mal zu mir, dass man bei Google auf Seite 3 glatt einen Mord begehen könnte und keiner würde es merken. Das stimmt, kann aber auch für den Suchenden von Vorteil sein.

 

Kleine, hochspezialisierte Beratungen investieren mit hoher Wahrscheinlichkeit sehr viel Zeit in die Qualität Ihrer Beratung und in ihre eigene fachliche Weiterbildung. Bedeutend weniger Zeit und Geld investieren Sie in Werbung und SEO-Optimierung, da sie nicht darauf angewiesen sind Millionenumsätze zu machen um ein großes Team an festen Mitarbeitern und eine große Gewinnspanne zu erwirtschaften.

 

Gute Statistikberater werden außerdem über Mund-zu-Mund-Propaganda weiter empfohlen und müssen daher deutlich weniger Geld für eine gute Platzierung auf Google bezahlen.

 

Daher ist es sehr wahrscheinlich, dass qualitativ hochwertige Beratungen nicht auf Seite 1, und oft auch nicht auf Seite 2 bei Google zu finden sind.

 

Es lohnt sich also immer, diese ersten Seiten hinter sich zu lassen und mal auf Seite 3 -5 zu schauen.

 

Außerdem ist es deutlich effektiver, nach komplexen Begriffen zu googlen. Anstatt „Statistikberatung“ kommt man schneller mit „Statistik für Mediziner“, „Statistik für Ärzte“, oder „Statistikberatung Medizin“ ans Ziel.

 

Warum ist das so?

 

Die großen Statistikberatungen bedienen alle Fächer. Dort gibt es (aus den vorher genannten Gründen) keine spezialisierten Berater. Daher wird auch sehr viel Werbebudget für allgemeine Schlagwörter verwendet, die deutlich teurer sind.

 

Da kleine Beratungen oftmals hochwertigen Content auf Ihren Seiten veröffentlichen, rankt Google kleine Firmen in deren Nischengebieten deutlich höher als bei den allgemeinen Suchbegriffen.

 

Googelst du also möglichst genau, wirst du gute Statistikberatungen finden, die auf dein Fach spezialisiert sind.

 

 

 

Um das noch mal zusammenzufassen

 

Wenn du als Mediziner eine qualitativ hochwertige Statistikberatung suchst, die deine Dissertation effektiv betreut, dann geh folgendermaßen vor:

 

  • Google genau was du suchst, z.B. „Statistikberatung für Ärzte“
  • Nimm dir die Zeit auch auf den hinteren Seiten bei Google zu suchen
  • Kompetente Berater liefern Content auf Ihren Seiten, der dir wirklich weiter hilft
  • Sie werben eher wenig, auch weil sie gut genug sind um von Mund-zu-Mund-Propaganda leben zu können
  • Wenn du promovierst, sollte auch dein Berater promoviert sein und genug wissenschaftliche Erfahrung mitbringen; suchst du Hilfe bei deiner Masterarbeit, ist diese Erfahrung weniger wichtig
  • Suche dir auf Mediziner spezialisierte Statistikberater, die wirklich nur und nicht auch in dieser Nische tätig sind
  • Kontaktiere nur Beratungen, bei denen von Anfang an klar ist, wer hinter dieser Firma steckt. 24/7-Hotlines vermitteln zwar oft ein Gefühl von Sicherheit, haben aber nicht unbedingt die besseren Berater.
  • Und abschließend: Nutze kostenlose Erstgespräche um deinen Berater kennen zu lernen. Nur wenn die Chemie zwischen dir und dem Berater – und nicht zwischen dir und dem Verkäufer in der Hotline- stimmt und du dich menschlich und fachlich verstanden fühlst, ist die Wahrscheinlichkeit groß, dass du bei dieser Statistikberatung gut aufgehoben bist.

 

Viel Glück bei deiner Suche!

 

 

 

 

Trage dich hier zu Dr. Ortmanns beste Maildizin ein und erhalte neben Tipps und Coachinginhalten für deine medizinische Promotion einen 10 % Gutschein auf für unsere Produkte im Onlineshop!

 

 

Du brauchst Hilfe bei der Datenanalyse? Dann vereinbare gern ein kostenloses Erstgespräch.

7 + 3 =

Promovieren als Monografie oder Publikation?

Promovieren als Monografie oder Publikation?

Heute hatte ich ein sehr langes Telefonat mit einer Klientin und wir tauschten uns aus zur Frage: Wäre es für sie besser, ihre Dissertation als Monografie zu verfassen, oder wäre eine Publikation die effektivere Lösung?

 

Dieses Thema beschäftigt viele meiner Kunden, daher habe ich beschlossen einen Artikel zu dieser Frage zu schreiben. Leider kann ich dir schon jetzt sagen: Die eine, richtige Antwort gibt es darauf nicht. Es gibt aber prinzipiell Vor- und Nachteile, die du als Doktorand unbedingt bei deiner Entscheidungsfindung berücksichtigen solltest.

 

Publikationen sind für Minimalisten

 

Ich gebe es ehrlich zu: Ich habe in meinem Leben noch nie eine Monografie verfasst. Lange wissenschaftliche Texte machen mir Angst. Nicht die anderer Leute, aber definitiv die, die ich selbst schreiben soll.

 

Ich weiß schlichtweg nicht, woher ich die Berge an Literatur, die man für eine Monographie braucht, nehmen soll. Ganz zu schweigen davon, wie ich diese dann auch noch sinnvoll in einer Einleitung von über 40 Seiten verpacken soll.

 

Ich bin ein Mensch der kurzen und direkten Wege. Sobald ich weiß, wo ich hin will, ist da zwischen mir und dem Ziel nur noch inhaltlicher Kahlschlag.

 

Daher ergriff ich sofort die Chance, als sich in meinem letzten Studienjahr die Prüfungsordnung änderte und das Verfassen von Diplomarbeiten als Publikation erstmalig erlaubt war.

 

Das Resultat waren 38 Seiten effizienter Inhalt – exzellent. Bei meiner Promotion machte ich es dann gleich wieder so: Drei Publikationen als Erstautor, dazu eine allgemeine Einleitung und eine abschließende Diskussion. Hätte man mir erlaubt, auch die Einleitung und Diskussion wegzulassen, ich hätte es gemacht.

 

Doch was für mich gilt – gilt nicht zwangsweise für dich! Es gibt viele Doktoranden in der Medizin und in den Naturwissenschaften, denen es nicht schwer fällt mit vielen Quellen zu arbeiten und diese in einem Manuskript zu verarbeiten. Und das ist beneidenswert!

 

Es gibt dabei aber ein Risiko, das beachtet werden muss: Oft beobachte ich, dass das Schreiben langer Aufsätze potentiell damit einhergeht, dass der Autor nicht auf die eine, prägnante Fragestellung „hinschreibt“. Stattdessen werden viele Themenbereiche nacheinander abgearbeitet, bevor der Leser dann völlig überraschend vor einer Ansammlung von Hypothesen zum Stehen kommt.

 

Das ist aber nicht zwangsweise ein Fehler des Doktoranden! Meiner Meinung nach liegt das eher am Wesen der Monographie. Ich würde fast sagen, dass die Monografie den Autor dazu verleitet, dies zu tun. Vierzig Seiten Einleitung sind extrem viel Inhalt, sodass man als Autor wahnsinnig schnell den Überblick verlieren kann. Hier den roten Faden zu finden, ist wirklich keine leichte Aufgabe!

 

Ganz anders bei der Publikation: Hier arbeitet man sich innerhalb weniger Seiten von einer breitangelegten thematischen Einführung immer mehr in Richtung der zentralen Fragestellung vor. Zwangsweise. Denn es fällt sofort auf, wenn man es nicht tut.

 

Ich nenne dieses Vorgehen den Einleitungstrichter, weil es im besten Fall so wirkt, als ob am Ende der Einleitung gar nichts anderes mehr übrig bleibt, als genau diese eine Fragestellung zu bearbeiten.

 

Der Vorteil der Publikation ist somit ganz klar: Die Einleitung ist so kurz, dass man so gut wie jeden Satz auswendig kennt und kaum den Überblick verlieren kann. Man feilt und löscht frei nach dem Motto „Das ist unnötig, das kann weg“, und zwar solange bis man den perfekten Aufbau geschaffen hat. Das Schreiben einer Publikation erfordert somit Freude an Reduktion und viel Genauigkeit, da hier jedes einzelne Wort zählt.

 

Der Vorteil der Monografie ist hingegen, dass man so viel schreiben kann, wie man will. Solange man dabei nicht den Überblick verliert, ist dem Umfang keine Grenze gesetzt (wobei ein Blick in die Prüfungsordnung nicht schaden kann).

 

 Publizieren dauert laaaange

 

Während eine Monografie von zwei, manchmal drei Gutachtern, von denen mindestens einer dein direkter Betreuer ist, beurteilt wird, durchläuft die Publikation einen internationalen Reviewprozess.

 

Das bedeutet: Weil eine Monografie bei der internen Begutachtung praktisch hausintern verarbeitet wird, ist die Gefahr inhaltlicher und methodischer Kritik, die dich zwingt, alles neu aufzurollen, relativ klein. Schließlich haben dein Betreuer und du die Studie gemeinsam entwickelt. Somit kann da also nach dem Abgeben nicht mehr viel schief gehen.

 

Reviewer im Rahmen des Publikationsprozesses kommen aber aus fremden Arbeitsgruppen, die sich mit ähnlichen Themen beschäftigen, aber sehr wahrscheinlich anderen Forschungsparadigmen folgen und deine Methodik, Auswertung und Interpretation im schlimmsten Fall als totalen Unsinn einstufen.

 

Was folg, ist dann entweder die sofortige Ablehnung deines Papers oder ein ellenlanger Revisionsprozess, im Zuge dessen die Publikation stark überarbeitet werden muss – und zwar häufig in allen Bereichen: hinsichtlich der Literatur, der Auswertung und ganz sicher der Diskussion der Ergebnisse.

 

Steht also in deiner Promotionsordnung, dass die Promotion eingereicht werden darf, sobald die zugrunde liegende Publikation akzeptiert wurde, musst du neben dem Schreiben noch sehr viel zusätzliche Zeit für den Revisionsprozess einplanen.

 

Deutlich bessere Karten hast du, wenn die Promotionsordnung vorsieht, dass die Publikation nur veröffentlichungsfähig sein muss– das ist nämlich dann erreicht, wenn das Manuskript beim Journal eingereicht wurde. Der Reviewprozess kann dir in diesem Fall total egal sein, denn eingereicht ist eingereicht.

 

Wenn dich der vorherige Punkt nicht abgeschreckt hat und du dich trotzdem für eine Publikation entscheidest, solltest du dich über die folgenden Punkte genau informieren, denn diese helfen dir, den Publikationsprozess zumindest etwas zu verkürzen:

 

Welches Journal kommt für mich in Frage?

 

Die Antwort findest du, wenn du dir ehrlich überlegst, wie relevant deine Ergebnisse für die weltweite Forschungsgemeinschaft überhaupt sind. Je unsicherer du dir bzgl. der Qualität deiner Ergebnisse, des Studiendesigns, der Datenerhebung oder deren Auswertung bist, vor allem aber je weniger Erfahrung du selbst oder dein akademischer Betreuer im Bereich Publikation hast, desto weiter „unten“ solltest du bei der Journalauswahl ansetzen.

 

Und wie definiert sich „unten“? Ganz klar – über den Impact Factor (IF). Dieser gibt an, wie häufig eine Publikation dieses Journals in Form einer Referenz innerhalb anderer Publikationen erwähnt wurde. Je häufiger das passiert, desto höher ist der Impact Factor. Es ist daher wichtig, dass du herausfindest, welcher IF in deiner Disziplin als hoch gilt, welchen IF Journale im Mittelfeld haben und welchen das übliche Wald-und-Wiesen-Journal hat.

 

Generell gilt: Je tiefer du einreichst, desto besser stehen deine Chancen, schnell und schmerzlos zu publizieren.

 

Daher prüfe die Qualität deiner Arbeit genau und reiche sie dann bei einem passenden Journal ein.

 

Mag das Journal dein Thema?

 

Ein zweiter wichtiger Punkt, den du bei der Auswahl deines Zieljournals beachten solltest, ist, ob das Journal sich mit deiner Forschungsfrage beschäftigt.

 

Das ist tatsächlich gar nicht so trivial. Journale können fast identische Namen besitzen und trotzdem unterschiedliche Interessensschwerpunkte haben, denn auch auf diesem Markt sucht jeder seine Nische. Reichst du beim falschen Journal ein, ist das verschwendete Lebensenergie.

 

Lies dir daher unbedingt bei jeder Journal-Homepage den Abschnitt „About the Journal“ durch. Hier steht klipp und klar, wofür das Journal steht und was für Forschungsarbeiten es veröffentlichen möchte. Passt es nicht zu deiner Arbeit, such dir ein anderes.

 

Welche Formatvorgaben hat dein Journal?

 

Anders als deine Uni, die zwar auch spezielle Anforderungen an die Formatierung deiner Arbeit hat und die du bei der Einreichung deiner Dissertation so oder so einhalten musst, haben Journale noch einmal deutlich strengere und vor allem einzigartige Formatierungsstile.

 

Das betrifft zum einen den Zitationsstil (den du aber glücklicherweise in Zitationsprogrammen wie Mendeley völlig automatisch anpassen kannst), zum anderen − und das ist deutlich nerviger − betrifft es den Aufbau und die Formatierung des Manuskripts selbst.

 

Dies beginnt bei den Titeln der Tabellen und geht über zu den Breiten der Grafiken, den verwendeten Schriftgrößen in den Grafiken, der Platzierung der Legenden, der Art der verwendeten Linien, die Anzahl der Dezimalen des p-Wertes, wenn er signifikant ist, was sich wiederum von den Anzahl der Dezimalen unterscheiden kann, wenn er nicht signifikant ist. Du kannst es dir vorstellen.

 

Ich habe mittlerweile so vielen Klienten beim Publizieren geholfen, dass ich mich bei der Frage nach dem WARUM dieser endlosen Anzahl von Formatierungsstilen für die einzig mögliche Erklärung entschieden habe: Ich bin felsenfest davon überzeugt, dass ein Journal erst dann zugelassen wird, wenn es sicher nachweisen kann, dass es einen einzigartigen Formatierungsstil hat. Vielleicht ist das so eine Art interne ISBN-Nummer, anhand derer sich Journale untereinander erkennen. Verwundern würde es mich nicht.

 

Das heißt also: Wenn du dich für die Publikation entscheidest, solltest du dir schon vor dem Schreiben überlegen, wo du publizierst und die Formatierungsvorgaben sofort umsetzen. Sie erst im Nachhinein integrieren zu wollen, wird dich jede Menge Nerven und schlaflose Nächte kosten.

 

Publikationen haben Anleitungen, Monografien werden sich selbst überlassen

 

Doktoranden, die Monografien schreiben, melden sich sehr oft bei mir, weil sie einfach nicht wissen, was sie wann, wie, wo schreiben sollen.

 

Die Unis geben den Doktoranden meistens nur eine sehr kurze Hilfe an die Hand, in der neben dem Zitationsstil und einer kurzen Anweisung bzgl. der Formatierung des Manuskriptes meist nur steht, dass man doch bitte eine Zusammenfassung, eine Einleitung, eine Methoden- und einen Ergebnisteil sowie eine Diskussion schreiben soll. Wenn es gut läuft, gibt es noch eine inhaltliche Kurzbeschreibung der einzelnen Teile, das ist dann aber in 99 % der Fälle schon das höchste der Gefühle.

 

Hat du dann noch einen Betreuer, der wenig Zeit und Muße hat, sich mit deinen Schreibproblemen zu beschäftigen, stehst du ziemlich schnell alleine da und weißt nicht mehr weiter.

 

Daher empfehle ich jedem Doktoranden, der eine Monografie verfassen möchte, sich einfach an Publikationen zu orientieren – klingt bescheuert? Ist es aber nicht!

 

In den letzten Jahrzehnten wurden so viele Manuskripte veröffentlicht, deren Methoden und Ergebnisteile gelinde gesagt unzureichend waren, dass sich verschiedene Fachgremien überlegt haben, dass es doch von nun an besser wäre, den Autoren für jeden Studientyp eine genaue Anforderungsliste an die Hand zu geben.

 

Was einerseits ein (aufwendiger) Nachteil ist, weil es sehr nervig sein kann, jedes kleinste Detail herauszusuchen und zu berichten, birgt gleichzeitig aber auch viele Vorteile.

 

Mittlerweile findet man auf jeder Journalhomepage unter der Sektion „Authors guide“ oder auch „Instructions for Authors“ eine riesige Untersektion, in der man sich nur seinen Studientyp heraussuchen muss, auf einen Link klickt, um dann zu einer Übersichtsplattform geführt zu werden, auf der genau erklärt wird, was, wann, wie, wo berichtet werden muss.

 

Diese Listen kann man als Doktorand einer Monografie natürlich ebenfalls abarbeiten − und zack ist die Struktur der Arbeit klar.

 

Ist man also schlau, ist auch das Verfassen einer Monografie für alle machbar, denen gerade die „Herzstücke“ des Manuskripts, also die Methoden und die Resultate ein absoluter Graus sind und deren Betreuer sie wenig unterstützen.

 

Deine Betreuerin profitiert von Publikationen – und das solltest du ausnutzen

 

Publikationen bringen Punkte, und Punkte bringen Ansehen und Drittmittel. Das ist nun mal so. Als ich promoviert habe, wurde zweimal jährlich im gefürchteten Morgenmeeting aufgedröselt, welche Arbeitsgruppe wann, wie, wo publiziert hat und wie unser Institut im Vergleich zu den anderen innerhalb der Uniklinik rankte.

 

Zu wenige Publikationen waren schlecht, gaaanz schlecht. Da gab es dann erstmal einen Einlauf vom Institutschef.

 

Somit dauerte es natürlich auch nicht lange, bis die kumulative Dissertation (also die Dissertation in Form von drei Publikationen) die Monografie als häufigste Promotionsform ablöste. Denn plötzlich war es nicht mehr die Aufgabe der Betreuer, aus einer Monografie eine oder mehrere Veröffentlichungen zu extrahieren, sobald der Doktorand abgegeben hatte − stattdessen konnte der Doktorand dies schon während des Schreibens der Promotion selbst erledigen!

 

Diese Änderung stellte sich als unheimlich effizient heraus, denn sie erzeugte nicht nur weniger Arbeit für den Betreuer, sondern verbesserte auch ganz nebenbei die Publikationsbilanz der Institute (und somit die Laune unseres Institutsleiters) enorm.

 

Damit das Publizieren aber auch klappte, fingen die Betreuer an, sich deutlich intensiver um ihre Doktoranden zu kümmern. Arbeiten wurden gemeinsam besprochen, konzipiert und nach dem Schreiben vom Betreuer überarbeitet.

 

Eine Publikation schreibt der Doktorand somit − anders als die Monografie −  nicht allein! Betreuer haben ein enormes Interesse daran, dass sie Punkte durch die Publikation erhalten. Somit unterstützen sie ihre Doktoranden deutlich mehr.

 

Hast du also Sorge, während deiner Promotion allein auf weiter Flur zu stehen, dann such dir einen Betreuer, der viel publiziert. In publizierenden Arbeitsgruppen stehen die Chancen außerdem sehr gut, dass Projekte effizient durchgezogen und dann gemeinsam publiziert werden.

 

Das Wichtigste zum Schluss

 

Bevor du dich auf eine Form festlegst, musst du die Ergebnisse deiner Untersuchung kennen. Null-Ergebnisse können nur sehr schwer publiziert werden, weil sie sich schlechter als Beitrag zur Forschung verkaufen lassen. Obwohl Studien heute vor Beginn registriert werden müssen und nicht mehr so einfach in der Versenkung verschwinden können, heißt das aber noch lange nicht, dass die Ergebnisse auch nach deren Beendigung publiziert werden.

 

Das bedeutet also, dass eine Publikation nur für Dissertationen mit ausreichend aussagekräftigen Ergebnissen in Frage kommt. Ist das bei dir nicht der Fall, kommst du deutlich besser voran, wenn du die Monografie wählst. Hier lassen sich auch Studien mit methodischen Fehlern oder fehlenden Ergebnissen sehr gut „verkaufen“.

 

Fazit:

 

Monografien und Publikationen haben jeweils sehr spezifische Vor- und Nachteile, die man individuell abwägen muss.

Sobald die Resultate deiner Dissertation vorliegen, solltest du dich fragen:

 

Wie umfangreich sind meine Ergebnisse?

Schreibe ich lieber kurz und präzise, oder lang und etwas mehr in die Tiefe gehend?

Was sind meine langfristigen Ziele? Kann mir die Publikation oder die Monografie besser dabei helfen sie zu erreichen?

Habe ich genug Zeit, den Publikationsprozess abzuwarten?

Und vor allem: In welchem wissenschaftlichen Umfeld schreibe ich meine Dissertation?

Trage dich hier zu Dr. Ortmanns beste Maildizin ein und erhalte neben Tipps und Coachinginhalten für deine medizinische Promotion einen 10 % Gutschein auf für unsere Produkte im Onlineshop!

 

 

Du möchtest ein wissenschaftliches Lektorat deiner Dissertation oder Masterarbeit? Dann schreib mir gern:

9 + 11 =

Lade dir hier die Formelsammlung für deinen Bland-Altman-Plot herunter

Melde dich für meinen Newsletter an und erhalte sofort das PDF!

You have Successfully Subscribed!

10 % Rabatt auf unsereWorkshops & Kurse im Onlineshop!

Trage dich hier für Dr. Ortmanns beste Maildizin ein und erhalte regelmäßige Rabatte, Tipps und Coachinginhalte für deine empirische Promotion

You have Successfully Subscribed!

Lade dir hier die Checkliste für deinen Methodenteil herunter

Melde dich für meinen Newsletter an und erhalte sofort das PDF!

You have Successfully Subscribed!


Jetzt 10 % Rabatt auf alle

Workshops & Kurse sichern!

You have Successfully Subscribed!

Downloade dir hier das Flowchart für deine ANOVA

Melde dich für meinen Newsletter an und erhalte sofort das PDF!

You have Successfully Subscribed!

Lade dir hier die Vorlage für den Aufbau deines Datensatzes herunter

Melde dich für meinen Newsletter an und erhalte sofort die Excel-Vorlage!

You have Successfully Subscribed!