Wer sucht sie nicht – die ewige Liebe. Egal, welcher Altersgruppe, Herkunft oder Bildungsschicht wir angehören, jeder Mensch sehnt sich nach Zugehörigkeit, Liebe und Geborgenheit.

 

Je jünger wir sind, desto mehr wird dieses Gefühl von dem Drang nach Abenteuer und Aufregung überlagert, aber….

 

—– SPOILERALARM ——

 

….in den allermeisten Fällen führen schwierige Beziehungen mit Partnern, die sich an der Grenze zur Persönlichkeitsstörung bewegen, nicht zum langfristig gewünschten Ergebnis.

 

Spätestens in den frühen Dreißigern hat es aber jeder kapiert: Eine stabile Liebe finden wir bei einem Menschen, dem wir vertrauen können, weil er uns so annimmt, wie wir sind. Bei jemandem, der uns nicht wahnsinnig macht, weil er immer wieder über unsere persönlichen Grenzen hinweg trampelt.

 

Dauerhafte, tiefe Liebe, so erklärte es mir mal ein Freund kurz vor seiner Hochzeit,  findet man beim besten Freund – zumindest wenn man ihn zufällig auch noch äußerst attraktiv findet.

 

Die große Liebe basiert also in letzten Konsequenz auf Übereinstimmung.

 

Und die ist messbar.

 

Vergleich 3er verschiedener exponentieller Wachstumskurven des Coronavirus.

 

Zum einen bietet sich da natürlich das eigene Gefühl an. Als ich meinen Mann vor fast 10 Jahren auf einer WG-Party kennenlernte, war die Sache für mich innerhalb von wenigen Minuten klar:

 

Er war nicht nur sehr attraktiv und sehr klug, sondern gab mir zum ersten Mal in meinem Leben das Gefühl, dass ich nicht zu irgendwas war. Zu nerdig, zu ambitioniert, zu fokussiert. Wir waren uns einfach total ähnlich.

 

Hätte ich aber auf Nummer sicher gehen wollen, hätte ich unser Beziehungspotential auch mathematisch berechnen können. 1986 publizierten Martin Bland und Douglas Altman, zwei Epidemiologen aus Großbritannien, eine ebenso einfache wie auch geniale Methode, um Übereinstimmung zu messen.

 

blank

(Foto: Bland & Altmann, 1981)

 

Ihnen begegnete in klinischen Publikationen nämlich immer wieder der gleiche Fehler:

 

Übereinstimmung, insbesondere zweier klinischer Messverfahren, wurde entweder anhand einfacher Korrelationstests überprüft (Heißt: Die Messwerte beider Methoden korrelieren positiv, also messen beide Methoden das Gleiche), oder anhand der fehlenden Signifikanz gerechneter T-Tests (Heißt: da es keinen signifikanten Unterschied zwischen den Werten beider Messverfahren gibt, müssen die Verfahren wohl gut übereinstimmen).

 

Während die Verwendung von Korrelationstests nur leicht falsch ist, war die Verwendung von T-Tests total daneben. Dies beruht auf den statistischen Grundlagen des Tests:

 

Eine Korrelation tritt nämlich auch dann auf, wenn beide Messreihen und die ihnen zugrunde liegenden Methoden eine intensive Beziehung zueinander haben. Das − und da verweise ich kurz auf all die missglückten Beziehungen, bevor ich meinen Mann traf −  ist aber nicht das Gleiche wie eine hohe Übereinstimmung.

 

blank

 

Bei T-Tests ist es noch schlimmer: Eine fehlende Signifikanz kann durch sehr viele verschiedene Faktoren herbeigeführt werden, allen voran durch eine kleine Stichprobe. Indem ich also möglichst wenige Messungen miteinander vergleiche, erhöhe ich die Wahrscheinlichkeit, keinen signifikanten Unterschied zwischen den zwei Messverfahren zu erhalten. Wer da nicht auf falsche Gedanken kommt …

 

Was haben also Bland und Altman gemacht?

 

Sie haben sich überlegt, dass die Übereinstimmung zweier klinischer Messverfahren wahrscheinlich dann am größten ist, wenn der Unterschied zwischen den beiden am kleinsten ist.

 

Dieser Gedanke war so neu und gleichzeitig so revolutionär einfach, dass die dazugehörige Publikation (Bland and Altman, 1986) bis zum heutigen Tag 45.562 mal zitiert wurde.

 

Durch die neu entwickelte Bland-Altman-Methode hatten Mediziner nun ein einfaches Instrument, mit dessen Hilfe sie bestimmen konnten, ob ein neues Messverfahren ein altes, aufwendigeres ersetzen konnte.

 

Und wie funktioniert das Verfahren genau?

 

Ganz einfach:

 

  • Zuerst misst man bei möglichst vielen Patienten den Zielparameter einmal mit Methode A und gleich danach noch einmal mit Methode B.
  • Danach bildet man für jeden Patienten sowohl den Durchschnitt (MW) als auch die Differenz aus beiden Messpunkten (Diff = xMethode A – xMethode B). 
  • Der Durchschnitt beider Messungen ist dabei ein Indikator für den wahren Wert des zu messenden Parameters. Da kein Messverfahren der Welt den wahren Wert genau darstellen kann (es sei denn, wir befinden uns im Bereich der Kalibrierung), können wir uns dem wahren Wert immer nur annähern – und in diesem Fall wird dies über den Mittelwert beider Messverfahren versucht.

Im nächsten Schritt wird für die Gesamtheit der ermittelten Differenzen beider Messverfahren sowohl der Gruppenmittelwert () als auch die Standardabweichung (s) berechnet. Wir haben nun also einen Wert für die mittlere Abweichung und einen für die mittlere Streuung der Differenzen.

 

Und nun wird das Ganze im Bland-Altman-Plot visualisiert:

 

blank

(aus: Giavarina, 2015) 

Hierfür wird eine Grafik mit 4 Teilen gebaut:

 

  • Auf der x-Achse wird der Mittelwert der jeweiligen Paare beider Methoden dargestellt, auf der y-Achse deren Differenzen. 
  • Eine gestrichelte horizontale 0-Linie zeigt die Linie der perfekten Übereinstimmung an, da hier die Differenz = 0 wäre. 
  • Auf einer zweiten horizontalen Linie wird der Mittelwert der Differenzen (Bias oder ) eingezeichnet. 
  • Oben und unten werden horizontale Linien für die Limits of Agreement (LOAs), definiert über ± 1,96s der Differenzen, wie oben berechnet, geplottet. 
  • Und zum Schluss wird für jeden der berechneten Parameter das jeweilige 95 %-Konfidenzintervall schraffiert (grau hinterlegte Flächen).

 

In dieses Gerüst werden nun für jeden Patienten der Durchschnitt (x-Achse) und die Differenz beider Messungen als Punkte eingetragen und fertig ist der Bland-Altman-Plot.

 

Interpretation des Bland-Altman-Plots

 

 1. Abstand der Linie der mittleren Differenz () zur 0-Linie:

 

Der Abstand beider Linien sollte möglichst gering sein. Je kleiner der Abstand, desto stärker stimmen die Methoden im Mittel überein. Den Unterschied zwischen beiden Linien nennt man Bias. Er ist ein Indikator dafür, ob die neue Methode das zu messende Konstrukt im Vergleich zur Standardmethoden über- oder unterschätzt (je nachdem, ob die Differenz ein positives oder negatives Vorzeichen hat).

 

2. Abstand der LOAs zur Linie der mittleren Differenz:

 

Die LOAs werden anhand der Streuung der Differenzen berechnet und enthalten aufgrund ihrer festgelegten Breite von ± 1,96 Standardabweichungen (s) 95 % aller berechneten Differenzen – zumindest dann, wenn die Differenzen normalverteilt sind, was aber fast immer der Fall ist.

 

Heißt das also, dass die Methoden übereinstimmen, wenn 95 % der Punkte innerhalb der LOAs liegen?

  

Nein, eben nicht.

 

Der Position der LOAs auf der y-Achse überdeckt per Definition 95 % aller Punkte, da die Breite mit ± 1,96 s entsprechend ausgewählt wurde.

 

Anhand der Limits of Agreement kann man also nicht nachweisen, DASS beide Messverfahren übereinstimmen, sondern nur, wie stark die Streuung der Differenzen ist.

 

Ob das nun klinisch viel oder wenig ist und somit die Übereinstimmung klein oder groß ist, muss anhand vorab festgelegter Grenzwerte bestimmt werden.

 

Eine Frage, die sich also alle Forschenden VOR Beginn der Studie stellen sollten, ist, wie groß die mittlere Abweichung vom Mittelwert der Differenzen sein darf, um auch mit der neuen Methode noch gute Ergebnisse erzielen zu können.

 

Liegen die LOAs also innerhalb der a priori festgelegten klinisch sinnvollen Grenzwerte, dann stimmen die Methoden ausreichend stark überein.

 

3. Die 95 %-Konfidenzintervalle:

 

Da wir in jeder Studie nur eine begrenzte Stichprobe untersuchen, wird in jedem guten Bland-Altman-Plot sowohl für die mittlere Differenz als auch für beide LOAs ein 95 %-Konfidenzintervall eingezeichnet.

 

Diese Intervalle sind sehr nützlich, weil sie uns einen weiteren Indikator dafür liefern, wie sehr sich die Ergebnisse der Studie auf die Gesamtbevölkerung übertragen lassen.

 

Das Konfidenzintervall überdeckt den „wahren“ Wert innerhalb der Gesamtbevölkerung mit einer Wahrscheinlichkeit von 95 %. Je schmaler also das 95 %-KI, desto repräsentativer ist unsere Stichprobe und desto mehr dürfen wir unseren Ergebnissen trauen.

 

Zusammenfassung:

 

Die Bland-Altmann-Methode erlaubt eine Beurteilung darüber, mit welcher Übereinstimmung zwei Messmethoden denselben klinischen Parameter messen.

 

Sie basiert nicht auf einem Signifikanztest, sondern erfordert eine kritische Einschätzung der Ergebnisse und ein gewissenhaftes Vorgehen, bei dem die Grenze der Übereinstimmung zwischen beiden Methoden schon vor Beginn der Studie anhand klinischer Parameter festgelegt werden muss.

 

Damit die Methode bestmöglich funktioniert, müssen einige Vorbedingungen erfüllt sein:

 

  1. Die einzelnen Messpaare sollten unabhängig voneinander sein. Das bedeutet, dass jeder Proband nur einmal an der Studie teilgenommen haben sollte und nicht mehrfach.
  1. Die Differenzen sollten zufällig und nicht systematisch variieren. Das heißt, die Werte auf der y-Achse sollten nicht parallel zu steigenden Werten auf der x-Achse größer oder kleiner werden.
  1. Die Differenzen beider Messverfahren sollten über die Patienten hinweg normalverteilt sein. Das sind sie aber zum Glück meistens.

 

Hältst du bei der Planung deiner Studie diese Vorbedingungen ein, ist ein sehr gutes Ergebnis wahrscheinlich.

 

Was bleibt:

 

Nachdem mein Mann (ein Wirtschaftsinformatiker) am Ende der WG-Party zu dem Schluss kam, dass es durchaus eine gute Idee wäre, mich auch über diesen ersten Abend hinaus besser kennenzulernen, telefonierten wir während der nächsten Wochen jeden Abend mindestens eine Stunde miteinander und redeten und redeten und redeten.

 

Da wir beide keine Fans großer Gefühlsbekundungen sind, war es mein größtes Glück, als er mir ein paar Monate später anstelle seiner Liebe mit großem Ernst erklärte:

 

„Leni, du bist der Mensch, der mir von allen auf der Welt am wenigsten auf die Nerven geht.“

 

Ab diesem Moment, in dem wir all unsere Differenzen quantifiziert und sie für ausreichend klein befunden hatten, war uns beiden klar, dass wir die große Liebe gefunden hatten.

 

 

blank

 

Literatur:

Bland, J.M., Altman, D.G., 1986. Statistical Methods for assessing Agreement between two methods of clinical measurement. Lancet 1, 307–310.

Giavarina, D., 2015. Understanding Bland Altman analysis. Lessons Biostat. Underst. 25, 141–151.

 

Hol dir hier die Formelsammlung für deinen
Bland-Altman-Plot

Hol dir hier die Formelsammlung für deinen Bland-Altman-Plot

Melde dich für meinen Newsletter an und erhalte sofort das PDF!

You have Successfully Subscribed!

Trag dich hier für Dr. Ortmanns beste Maildizin ein und erhalte regelmässige für deine empirische Promtion

You have Successfully Subscribed!

Hol dir hier die Checkliste für deinen Methodenteil

Melde dich für meinen Newsletter an und erhalte sofort das PDF!

You have Successfully Subscribed!