Fast jeder forschende Arzt kennt das Dilemma: Eine neue, schonende Therapieform soll mit der konservativen Standardtherapie verglichen werden. Hätte man viel Geld und noch mehr Zeit und wäre man zuversichtlich, dass beide Therapien mindestens gleich gut funktionieren, dann hätte man eine kontrolliert randomisierte Patientenstudie geplant und über Jahre geduldig Daten gesammelt.

Bei jedem Patienten wäre per Zufall entschieden worden, welche Therapie er bekommt, und nach Erreichen einer wunderbar hohen Fallzahl hätte die Auswertung ergeben, dass das neue, schonende Therapieverfahren genauso wirksam ist (nein wirksamer!) – bei deutlich weniger Nebenwirkungen.

 

Leider haben Mediziner aber wenig Zeit und nutzen daher, was an Daten zur Verfügung steht.

 

Also werden die Akten der letzten Jahre durchsucht und alle Fälle entnommen, die entweder Therapie A oder B bekommen haben, und diese dann statistisch miteinander verglichen.
Die Fallzahl ist auch hier hoch (toll!), aber bei genauerem Hinsehen fällt auf, dass die Patienten, die mit der konservativen Therapie behandelt wurden, signifikant häufiger schwerere Formen der Erkrankungen aufweisen als in der neuen, weniger erprobten Variante.
Das ist natürlich absolut verständlich, denn im Zweifelsfall geht man doch lieber auf Nummer sicher, denn das oberste Ziel ist die Heilung des Patienten!

Was sagt nun aber so eine Studie aus? Kann man aus einem positiven Ergebnis ableiten, dass die schonende Therapieform besser ist? Leider nein, denn der Schweregrade der Erkrankung hat hier mit hoher Wahrscheinlichkeit einen Einfluss auf die abhängige Variable, mit der gemessen werden soll, welche Therapieform besser ist. Solche störenden Variablen werden auch konfundierende Variablen genannt und werden spätestens bei der zukünftigen Veröffentlichung ein Problem.

 

Was also tun? Alle Daten wegschmeißen?

 

Eine Lösung wäre es, sich beide Datensätze ganz genau anzusehen und zwischen beiden Gruppen Paare zu bilden, die sich möglichst ähnlich sind. Merkmale, die dabei eine Rolle spielen könnten, wären z. B. das Alter oder das Geschlecht, aber insbesondere alle Merkmale, die die Krankheit und ihre Risikofaktoren bestimmen und somit einen Einfluss auf den Erfolg der Therapie haben könnten. Wenn man ein paar dieser Merkmale durchsucht hat, wird schnell klar, dass es fast unmöglich ist, ausreichend viele Paare in einem annehmbaren Zeitraum zu finden.

 

Aber zum Glück hat die Statistik auch hier eine Lösung entwickelt: das Propensity Score Matching!

 

Mit dieser Methode werden alle zu matchenden Variablen in einem Wert zusammengefasst, der dann dazu genutzt wird, möglichst viele Paare zu finden, die sich sehr ähnlich sind. Das ermöglicht einen direkten Gruppenvergleich, der nicht mehr unter dem Einfluss der konfundierenden Variablen steht. Das Ergebnis wird dann also wirklich von der verabreichten Therapieform bestimmt und nicht mehr von der Störvariable.

Aber wie funktioniert das? Das Propensity Score Matching (PSM) ist mittlerweile in vielen Statistikprogrammen implementiert. Ich möchte hier aber speziell den Ansatz von Felix Thoemmes (Thoemmes, 2012) vorstellen. SPSS hat zwar auch eine eigene Variante, aber das SPSS-Plug-in von Thoemmes läuft mit weniger Fehlern und erlaubt eine bessere Einschätzung zur Güte des Matchings.

Um damit zu arbeiten, müssen zuerst das kostenlose Datenanalyseprogramm R installiert, drei Pakete in R aktiviert sowie ein SPSS-Plug-in geladen werden. Das ist vielleicht zuerst ein bisschen mühsam, aber es lohnt sich und muss auch nur einmal erledigt werden. Eine gute Anleitung gibt es auch bei Thoemmes et al. (2012), unter Appendix A.

 

Wie funktioniert Propensity Score Matching?

 

Zuallererst muss für jeden Patienten ein Propensity Score (PS) errechnet werden, der alle zu matchenden Merkmale vereint. Dazu wird im ersten Schritt eine logistische Regression gerechnet, in der alle Merkmale als Covariaten eingehen und die Therapieform die dichotome abhängige Variable darstellt. Der dabei entstehende Propensity Score (PS) ist dabei definiert als die Wahrscheinlichkeit, mit der ein Patient die zu prüfende Therapie erhält.

Im zweiten Schritt werden dann möglichst viele Paare zwischen beiden Gruppen gematcht, indem genau die Patienten gesucht werden, deren PS sehr ähnlich ist. Dazu wird bei Thoemmes et al. (2012) das Nearest-Neighbour-Verfahren angewendet. Doch wie ähnlich ist ähnlich genug? Um das zu bestimmen, kann ein sogenannter Caliper festgelegt werden, der die maximal erlaubte Differenz zwischen zwei Patienten definiert. Je größer der Caliper, desto mehr Paare finden sich, aber desto schlechter wird das Matching. SPSS hat als Standardeinstellung 0.2 gewählt, Thoemmes et al. (2012) schlagen 0.15 vor. Es ist sinnvoll, den Wert zu variieren und zu schauen, wie gut das anschließende Matching klappt.

Das PSM resultiert in einem neuen Datenfile, in dem alle gematchten Patienten eingefügt werden. Das ist super, denn alle zukünftigen Analysen können jetzt problemlos mit diesem File ausgeführt werden. Stellt euch vor, die Paare hätten per Hand exportiert werden müssen – ein Alptraum!

Zusätzlich erstellt SPSS in der Ausgabe eine Auflistung von Tests und Grafiken, die helfen sollen, zu bestimmen, ob das Matching zu zwei Subpopulationen geführt hat, die sich wirklich nicht mehr bzgl. der Covariaten unterscheiden. Es wird also die Güte des Matchings beschrieben.

Zu diesen Tests gehören bspw. der Overall-Balance-Test sowie ein Maß für die relative multivariate Imbalance und eine Aufzählung der (hoffentlich) wenigen unbalancierten Covariaten. Je weniger unbalancierte Covariaten es gibt, desto besser ist das Matching. Hier kann man schauen, ob ein kleinerer Caliper weniger unbalancierte Variablen zur Folge hat.

Es werden außerdem Verteilungsdiagramme der Propensity Scores erstellt, mit deren Hilfe visuell beurteilt werden kann, ob sich beide Gruppen durch das Matching ähnlicher geworden sind.

 

Hat alles geklappt, kann mit den eigentlich in der Studie interessierenden Fragen begonnen werden: Inwiefern unterscheiden sich die beiden Therapieformen bzgl. ihrer primären und sekundären Endpunkte? Und diesmal könnt ihr diese Frage beantworten, ohne über Störvariablen zu stolpern!

 

Fazit:

 

Das von Thoemmes et al. (2012) entwickelte SPSS-Plug-in ist zwar anfänglich ein bisschen umständlich zu installieren, bietet aber sehr viele Möglichkeiten, um zwei unterschiedliche Gruppen bzgl. ihrer Merkmale anzugleichen.

 

Wichtig!

 

  1. Es können nur bekannte Störvariablen berücksichtigt werden. Unbekannte und mit anderen Covariaten unkorrelierte Störvariablen können ihren negativen Einfluss weiterhin ausüben. Daher überlegt euch ganz genau, welche Variablen einen Einfluss haben können, und nehmt diese in die logistische Regression auf!
  2. Fehlende Fälle sind für jede Toolbox ein Problem, da sie dazu führen, dass die entsprechenden Probanden nicht berücksichtigt werden. Versucht also, alle Lücken durch eine gute Recherche zu schließen. So erhaltet ihr euch auch nach dem Matching eine ausreichend große Gruppengröße!

 

Literatur:

Thoemmes, F. (2012). Propensity score matching in SPSS. arXiv.org, (January), 30. Retrieved from http://arxiv.org/abs/1201.6385

 

 

Trag dich hier für Dr. Ortmanns beste Maildizin ein und erhalte regelmässige Tipps für deine medizinische Promotion

 

Sie benötigen Hilfe bei der Durchführung eines Propensity Score Matchings? Kontaktieren Sie mich gerne!

8 + 12 =

Hol dir hier die Formelsammlung für deinen Bland-Altman-Plot

Melde dich für meinen Newsletter an und erhalte sofort das PDF!

You have Successfully Subscribed!

Trag dich hier für Dr. Ortmanns beste Maildizin ein und erhalte regelmässige für deine empirische Promtion

You have Successfully Subscribed!

Hol dir hier die Checkliste für deinen Methodenteil

Melde dich für meinen Newsletter an und erhalte sofort das PDF!

You have Successfully Subscribed!