Ich freue mich immer wieder über Zeitungsartikel, die aktuelle Studien besprechen. Vor ein paar Tagen stieß ich auf einen Artikel eines großen deutschen Nachrichtenmagazins (link): Bluttest verrät Sterberisiko!
Weitaus dramatischer als die Studie selbst war der Untertitel des Artikels (hier in Teilen frech von mir als Überschrift genutzt):

Wie wahrscheinlich ist es, dass ich in fünf Jahren tot bin? Forscher aus Deutschland arbeiten an einem Bluttest, der genau das vorhersagen soll. Medizinethiker sind entsetzt.

Bei so einem Einstieg kann ich als Methodiker und Wissenschaftler ja kaum noch an mich halten. Ich muss also herausfinden, was dahinter steckt.

Der Artikel befasst sich mit einer Studie, die eine Arbeitsgruppe um Joris Deelen durchgeführt hat. Deelen ist Post-Doktorand am Max-Planck-Institut für die Biologie des Alterns in Köln.

Wäre es nicht toll – so die Frage der Autoren –, wenn man ein kleines Set an Biomarkern hätte, das uns helfen würde, auf den ersten Blick erkennen zu können, in welchem globalen gesundheitlichen Zustand sich unser Körper aktuell befindet und ob ein erhöhtes Risiko besteht, in den nächsten 5 oder 10 Jahren zu sterben?

Um diese Frage zu beantworten, wurden Blutsera von 44.168 Personen aus 12 schon erhobenen Kohorten bzgl. 260 verschiedener Biomarker untersucht. Das sind sehr viele Daten, die hier ausgewertet wurden, was super ist, denn große Datensätze haben natürlich ein großes Potential für Wissenszuwachs.

Für jede dieser Kohorten wurde nun im nächsten Schritt eine Cox-Regression berechnet, die es ermöglicht, Risikofaktoren für das Versterben der untersuchten Populationen zu ermitteln. Die Ergebnisse der Einzelkohorten wurden dann im Rahmen einer Survival-Metastudie kombiniert.

Mithilfe von forward- und backward-Algorithmen, von denen man im Rahmen aller regressionsbasierten Methoden immer wieder hört (also merkt sie euch, denn forward und backward-Ansätze sind nützlich!), wurden aus den 260 initialen Biomarkern 14 voneinander unabhängige, also nicht-miteinander korrelativ im Zusammenhang stehende Biomarker identifiziert.

Und hier kommt jetzt etwas Besonderes: Die Biomarker standen in keinem Zusammenhang mit einem aktuellen, bestehenden Krankheitsbild der Patienten. Sie waren also objektive Marker und somit sehr wahrscheinlich auch nicht durch spezifische, krankheitsbedingte Therapien zu beeinflussen.

Um nun zu zeigen, welche Vorhersagekraft die identifizierten Biomarker für das Überleben haben, wurden sie zu einem Gesamtscore kombiniert und im Vergleich zu drei anderen, teilweise schon bestehenden Modellen (Modell 1: mit konventionellen Risikofaktoren, Modell 2: mit 4 Biomarkern, Modell 3: Kombinationsmodell aus 14 Biomarkern und konventionellen Risikofaktoren) mithilfe von ROC-Kurven ausgewertet. ROC-Kurven sind toll, denn sie quantifizieren, wie akkurat ein bestimmter Parameter (hier z. B. der Biomarker-Score) ein Ereignis (in diesem Fall: den Tod) vorhersagt. Die ROC-Kurve bietet dabei die praktische Möglichkeit des direkten visuellen Vergleichs verschiedener Methoden, aber auch des quantitativen Vergleichs (durch die AUC bzw. die C-Statistik).

Und was kam dabei heraus? Da der Artikel in Nature Communications veröffentlicht wurde, natürlich, dass der 14-Biomarker-Score der beste Prädiktor ist.

Aber was bedeutet das? Ist der Beste auch gut? Ja, tatsächlich. Das zeigt uns die C-Statistik bzw. das AUC (Area under the Curve) der ROC-Kurve. Hier wurden für die 5-Jahres-Mortalität AUCs von 0,837 (bzw. 0,83 für die 10 Jahres-Mortalität) erreicht. Das bedeutet, dass das Modell recht stark in seiner Vorhersagekraft / Klassifizierung ist. Das alternative konventionelle Risikofaktorenmodell erreichte Werte von 0,772 (bzw. 0,79), was ebenfalls nicht schlecht, aber naja, nun mal eben schlechter ist.

Ganz besonders interessant wird es, wenn man sich die Vorhersagekraft für Personen über 60 Jahren ansieht, denn hier vergrößert sich der Abstand zwischen beiden Modellen noch mehr: Während das 14-Biomarker-Modell immer noch ein AUC von 0,732 für die 5- und 0,715 für die 10-Jahre-Überlebenswahrscheinlichkeit aufzeigt, schafft das konventionelle Modell gerade einmal noch ein AUC von 0,626 / 0,650. Zum Vergleich: Ab 0,5 bewegen wir uns im Bereich der Ratewahrscheinlichkeit.

Gerade dieser Altersbereich ist aber laut der Autoren von besonderem Interesse, weil es aktuell kaum valide Risiko-Scores bzw. Risikoprädiktoren gibt.

Schaut man sich nun also die blanke Methodik der Studie von Deelen et al. an, (die hier natürlich von mir schematisch und stark vereinfacht dargestellt wurde, auch wenn euch das wahrscheinlich schon viel zu lang vorkam), gibt es bisher prinzipiell nichts, was uns Angst einjagen müsste, oder?

Genau. Nun kommen wir aber zur politischen und natürlich auch marketing-relevanten Seite einer jeden wissenschaftlichen Publikation – und die spielt natürlich keine geringe Rolle für den Erfolg einer wissenschaftlichen Laufbahn. Denn letztendlich geht es in der Wissenschaft immer nur um zwei wesentliche Dinge:

– Gelder für die aktuelle Forschung zu akquirieren ( = der Autor ist ab dem nächstem Jahr nicht arbeitslos) und
– eine Publikation gut unterzubringen (die Autorin kann auch zukünftig Drittmittelanträge einreichen und somit weiter in der Forschung arbeiten, vielleicht sogar irgendwann mal als Professorin).

Und um das zu schaffen, muss jeder Artikel einen starken ersten Satz haben, der klar macht, worum es geht und welches Problemfeld in diesem Artikel bearbeitet werden soll. Und da wären wir schon bei der Ursache des medialen Aufschreis. Der Artikel beginnt nämlich mit diesem Satz:

Robust predictors of intermediate- and long-term mortality may be valuable instruments in clinical trials and medical decision making.

Und hier liegt der Fokus der medialen Aufmerksamkeit nun auf drei Wörtern, die im ganzen 8-seitigen Artikel niemals wieder auftauchen: medical decision making. Bähm!

Dieser Satz impliziert nämlich im weitesten Sinne (und mit ausreichend Katastrophendenken), dass der einzige Grund für die Entwicklung des Biomarker-Scores der ist, dass anhand der berechneten Überlebenswahrscheinlichkeit entschieden werden könnte, ob ein Patient überhaupt noch Behandlung x oder y bekommen soll, oder ob sowieso schon Hopfen und Malz verloren sind und man sich das Geld besser sparen könnte.

Diese Interpretation stammt übrigens vom Autor des Zeitungsartikels und seiner Interviewpartnerin und nicht von Deelen selbst:
Annette Rogge ist Vorsitzende und Geschäftsführerin der Ethikkommission des UK Schleswig Holstein. Sie möchte in ihrer Funktion nicht nur verhindern, dass Scoresysteme einen zu hohen Stellenwert in der Therapiefindung haben, sondern stellt die Markteinführung solcher oder ähnlicher Systeme vorab kritisch in Frage (um es freundlich auszudrücken). Das ist natürlich ihr gutes Recht. Gerade als Mitglied der Ethikkommission ist es geradezu ihre Aufgabe, Studien und deren Bedeutung bis ins letzte (schwarze) Detail zu durchdenken. Denn Ethikkommissionen haben die Aufgabe, Patienten zu schützen und diese keinen unnötigen Risiken auszusetzen.

Aber diese Kritik kommt leider viel zu spät, denn Scoresysteme dieser Art kommen im klinischen Alltag schon längst zum Einsatz! Insbesondere in sensiblen Bereichen wie der Allokation von Spenderorganen werden Scoresysteme, die beispielsweise das 5-Jahresüberleben mit und ohne Spenderorgan anhand von Biomarkern berechnen, sehr erfolgreich eingesetzt. Sie ersetzen mehr und mehr rein wartelistenbasierte Systeme und reduzieren so die langfristige Mortalität schwerkranker Menschen.

Dies bestätigt auch ein weiterer Interviewpartner von Der Spiegel, Florian Kronenberg vom Institut für Genetische Epidemiologie der Medizinischen Universität Innsbruck, denn schon heute fallen in der Medizin ständig Entscheidungen auf der Basis relativ weniger Parameter.

Muss uns das Angst machen? Ich denke nicht. Zum einen sind die aktuell entstehenden Modelle besser als die alten, sonst wären sie schon in der frühen Testphase eingestampft worden. Zum anderen würde ich mich lieber am Ergebnis eines gut validierten Testscores orientieren, anstatt am Bauchgefühl des mich behandelnden Arztes. Schließlich muss sich seines nicht zwangsweise mit dem Bauchgefühl eines zweiten Arztes decken, der mich zwanzig Minuten später behandelt hätte, wenn ich auf dem Weg in die Klinik im Stau gestanden hätte.

Das ist natürlich überspitzt dargestellt, denn natürlich gibt es zusätzlich zum Bauchgefühl noch Richtlinien der entsprechenden Fachgesellschaften, um die Entscheidungsfindung von Ärzten zu unterstützen, aber ratet mal, worauf diese Richtlinien basieren? Richtig – Studien! Studien bilden also ein Korrektiv für das subjektive Bauchgefühl eines Arztes und das ist gut so.

Die Grundfrage ist doch: Wie gut sind die statistischen Modelle, auf denen die Therapieempfehlungen beruhen? Wie viel Varianz innerhalb der zugrunde liegenden Patientenpopulation konnten sie erklären? Wie groß war die untersuchte Population? Wie oft und wie erfolgreich konnte der etablierte Score an anderen Populationen validiert werden? War die Stichprobe repräsentativ und als alles subsumierende Frage: Wie gut funktionieren die Modelle im Einzelfall? Kann das Modell also auch auf mich angewandt werden?

Das sind Fragen, die im Rahmen des Validierungsprozesses solcher Vorhersagemodelle immer wieder gestellt werden müssen. Bis ein Modell all diese Hürden genommen hat, dauert es sehr lange. Der Deelen-Artikel berechnet nämlich noch gar nicht die Sterbewahrscheinlichkeit der nächsten 5 oder 10 Jahre. Er berechnet aktuell nur das relative Sterberisiko einer Person. Und das ist etwas ganz anderes, da man für eine genaue Aussage über die absolute Höhe die Sterbewahrscheinlichkeit einer entsprechenden Vergleichsperson ohne die Eigenschaft xy kennen müsste – und die kennen wir in den meisten Fällen gar nicht. Genau deswegen sprechen Deelen et al. immer nur von einer relativen Erhöhung des Sterberisikos um das 2,74-Fache, als Folge einer Erhöhung des Biomarker-Scores um einen Punkt.

Wir sind also noch sehr weit entfernt von einer prozentualen Vorhersage der Sterbewahrscheinlichkeit, die der Überschrift des Zeitungsartikels gerecht werden würde. Bisher wurde „nur“ eine absolut seriöse, methodisch sehr gut gemachte Grundlagenuntersuchung durchgeführt, um fragliche Biomarker zu identifizieren und mit anderen Modellen zu vergleichen.

Und somit ist hier passiert, was eigentlich ständig passiert: Es gab zum einen den Einleitungssatz, der zu weite Interpretationen zugelassen hat und wahrscheinlich genauso auch in der Pressemitteilung des Fachjournals stand, und zum zweiten einen Journalisten, der die Statistik nicht in ihrer Gänze verstanden hat –, um es konservativ auszudrücken.

Es ist natürlich klar, dass es als Nicht-Wissenschaftler schwer ist, solch komplexe Berechnungen zu verstehen (und sie sind wirklich komplex, ich habe 2 Tage gebraucht, um mich durch alle Einzelheiten zu graben). Das sollte Journalisten und ggf. auch Entscheidungsträger aber nicht davon abhalten, einfach mal bei der betreffenden Arbeitsgruppe oder bei einem Statistiker anzurufen, um sich die Methodik und somit auch die Bedeutung der Ergebnisse erklären zu lassen.

Denn Artikel schaffen subjektive Wahrheiten, und wie sich subjektive Wahrheiten heutzutage verbreiten und Meinungen bilden, muss an dieser Stelle ja wohl nicht mehr erwähnt werden …

Trag dich hier für Dr. Ortmanns beste Maildizin ein und erhalte regelmässige Tipps für deine medizinische Promotion

 

Hol dir hier die Formelsammlung für deinen Bland-Altman-Plot

Melde dich für meinen Newsletter an und erhalte sofort das PDF!

You have Successfully Subscribed!

Trag dich hier für Dr. Ortmanns beste Maildizin ein und erhalte regelmässige für deine empirische Promtion

You have Successfully Subscribed!

Hol dir hier die Checkliste für deinen Methodenteil

Melde dich für meinen Newsletter an und erhalte sofort das PDF!

You have Successfully Subscribed!