Der Chi-Quadrat-Test: Zusammenhänge zwischen kategorialen Variablen analysieren
Der Chi-Quadrat-Test: Zusammenhänge zwischen kategorialen Variablen analysieren
In der medizinischen Statistik geht es häufig um Fragestellungen wie „Tritt Krankheit X bei Frauen häufiger auf als bei Männern?“ oder „Wird Therapie Y bei älteren Menschen häufiger verwendet als bei jüngeren?“. Oder es soll herausgefunden werden, ob sich die zwei oder mehr Gruppen einer Untersuchung hinsichtlich eines bestimmten kategorialen Merkmals (Geschlecht, Bildungsgrad, ASA-Klassifikation…) unterscheiden.
Fragestellungen dieser Art sind ein klarer Fall für den χ2-Test (ausgesprochen: „Chi-Quadrat“) und hier erläutern wir dir ganz kurz anhand eines simplen Beispiels, was die Grundidee dieses Tests ist und wie du das Testergebnis richtig interpretierst.
Ein simples (und fiktives) Beispiel
Angenommen du möchtest herausfinden, ob die Wirksamkeit eines bestimmten Medikaments bei Männern und Frauen unterschiedlich ist. Dafür hast du in deiner Untersuchung bei insgesamt 200 Patient:innen folgende beiden Merkmale erhoben:
- das Geschlecht (der Einfachheit halber „weiblich“ oder „männlich“)
- die Wirksamkeit des Medikaments (der Einfachheit halber „wirksam“ oder „nicht wirksam“)
Um ein klein wenig „Statistiksprech“ in das Beispiel zu bringen: Du hast also zwei kategoriale Variablen (auch nominale Variablen genannt) mit jeweils zwei Ausprägungen (weiblich/männlich bzw. wirksam/nicht wirksam) und möchtest nun analysieren, ob zwischen diesen Variablen ein Zusammenhang besteht oder ob diese unabhängig voneinander sind.
Zusammenhang und Unabhängigkeit
Was bedeutet Zusammenhang bzw. Unabhängigkeit hier inhaltlich? Wenn die beiden Variablen Geschlecht und Wirksamkeit unabhängig voneinander wären, dann würde das bedeuten, dass es für die Wirksamkeit des Medikaments keine Rolle spielt, ob die Person, die es bekommt, männlich oder weiblich ist – die Wahrscheinlichkeit, dass das Medikament wirkt, wäre für alle gleich.
Wenn hingegen ein Zusammenhang besteht, dann wäre die Wirksamkeit des Medikaments vom Geschlecht abhängig. Das würde bedeuten, dass das Medikament entweder bei den Frauen wirksamer ist oder eben bei den Männern.
Für eine solche Art Fragestellung verwendest du den Chi-Quadrat-Test, genauer gesagt den Chi-Quadrat-Test auf Unabhängigkeit, da es unterschiedliche Chi-Quadrat-Tests für ganz unterschiedliche Analysezwecke gibt.
Häufigkeitstabellen
Ein unverzichtbares Werkzeug bei der statistischen Analyse solcher Fragestellungen sind sogenannte Häufigkeitstabellen, oft auch Kreuztabellen genannt.
In einer absoluten Häufigkeitstabelle wird einfach angegeben, wie oft die verschiedenen Ausprägungen deiner beiden Variablen in deinen Daten aufgetreten sind – in unserem Beispiel also, wie oft bei den Männern das Medikament wirksam war und wie oft nicht — und das Gleiche natürlich auch bei den Frauen. Die absolute Häufigkeitstabelle könnte etwa folgendermaßen aussehen:
| Männer | Frauen | Σ | |
| wirksam | 43 | 82 | 125 |
| nicht wirksam | 39 | 36 | 75 |
| Σ | 82 | 118 | 200 |
| Männer | Frauen | Σ | |
| wirksam | 43 | 82 | 125 |
| nicht wirksam | 39 | 36 | 75 |
| Σ | 82 | 118 | 200 |
Von den 200 Patient:innen waren also 82 Männer und 118 Frauen. Bei 43 der 82 Männer war das Medikament wirksam, bei 39 nicht. Bei den Frauen zeigte das Medikament in 82 von 118 Fällen eine Wirksamkeit und in 36 von 118 Fällen war es nicht wirksam. Insgesamt war das Medikament also bei 125 Patient:innen wirksam und bei 75 nicht.
Oft ist es allerdings inhaltlich sinnvoller, statt der absoluten Häufigkeitstabelle die bedingte relative Häufigkeitstabelle zu verwenden, vor allem, wenn deine beiden Gruppen (hier Männer und Frauen) unterschiedlich groß sind. Für unsere Fragestellung etwa lohnt es sich anzuschauen, bei wie viel Prozent der Männer und wie viel Prozent der Frauen das Medikament wirksam bzw. nicht wirksam war. So kannst du die beiden Gruppen viel besser miteinander vergleichen und bekommst ein klareres Bild über mögliche Unterschiede.
Den Prozentsatz der Frauen, bei denen das Medikament wirksam war, berechnest du ganz einfach: Du teilst die absolute Häufigkeit der Frauen, bei denen das Medikament wirksam war (82) durch die Gesamtanzahl der Frauen (118) und multiplizierst das Ergebnis mit 100. Den Rest der Tabelle bekommst du auf analoge Weise. Klar: Wenn du die Werte für die Männer bzw. für die Frauen spaltenweise addierst muss natürlich 100% rauskommen.
Für unser Beispiel sieht die nach den beiden Geschlechtern bedingte relative Häufigkeitstabelle folgendermaßen aus:
| Männer | Frauen | |
| wirksam | 52,44 % | 69,49 % |
| nicht wirksam | 47,56 % | 30,51 % |
| Σ | 100,0 % | 100,0 % |
| Männer | Frauen | |
| wirksam | 52,44 % | 69,49 % |
| nicht wirksam | 47,56 % | 30,51 % |
| Σ | 100,0 % | 100,0 % |
Anhand dieser Tabelle kannst du sofort (deskriptiv!) ablesen, dass der Prozentsatz der Frauen, bei denen das Medikament wirksam war, höher ist als der entsprechende Prozentsatz bei den Männern (69.49 % vs. 52.44 %).
Graphische Darstellung als Balkendiagramm
Eine einfache Möglichkeit, diesen Unterschied auch graphisch darzustellen, ist das Balkendiagramm. Dabei werden die entsprechenden Häufigkeiten (du kannst mit einem Balkendiagramm sowohl die absoluten als auch die bedingten Häufigkeiten darstellen) durch die Höhe entsprechender Balken repräsentiert.
Ein Balkendiagramm für unsere bedingte relative Häufigkeitstabelle würde dann folgendermaßen aussehen:
Der Chi Quadrat-Test
Dass das Medikament in deiner Stichprobe bei den Frauen deskriptiv häufiger wirksamer war als bei den Männern bedeutet für sich genommen natürlich noch nicht, dass es auch auf der Populationsebene („allgemein“) bei Frauen wirksamer ist als bei Männern. Um das herauszufinden müssen wir einen inferenzstatistischen Test (nämlich den besagten Chi-Quadrat-Test) durchführen!
Falls dir der für die Statistik fundamentale Unterschied zwischen Stichproben- und Populationsebene noch nicht ganz klar sein sollte oder du dich fragst, warum man überhaupt statistische Tests durchführt, dann schau dir gerne unseren Blogartikel zu diesem Thema an.
Die Logik des Chi-Quadrat-Tests ist (wie häufig in der Statistik) eigentlich ziemlich simpel. Die Nullhypothese lautet, dass die beiden Variablen auf Populationsebene unabhängig voneinander sind (also kein Zusammenhang besteht). Die Alternativhypothese lautet (wenig überraschend), dass ein Zusammenhang besteht.
Im Prinzip werden nun einfach die tatsächlich aufgetretenen absoluten Häufigkeiten mit jenen Häufigkeiten verglichen, die man erwarten würde, wenn kein Zusammenhang zwischen den Variablen bestünde (wie man diese bei Unabhängigkeit erwarteten Häufigkeiten bekommt ist am dieser Stelle nicht wichtig).
Diese Abweichungen zwischen den tatsächlichen und den bei Unabhängigkeit erwarteten Häufigkeiten werden quadriert (deshalb Chi-Quadrat), summiert und auf bestimmte Weise normiert und schon haben wir unsere Teststatistik, die ebenfalls χ2 heißt.
Je größer die Teststatistik χ2 ist, umso größer sind offenbar auch die Abweichungen zwischen den tatsächlich aufgetretenen und den bei Unabhängigkeit erwarteten Häufigkeiten und umso unwahrscheinlicher ist es, dass auf Populationsebene kein Zusammenhang zwischen den beiden Variablen besteht. Für unsere Teststatistik können wir uns dann (wie bei jedem anderen Test auch) einfach den zugehörigen p-Wert anschauen und beurteilen, ob ein statistisch signifikantes Ergebnis vorliegt oder nicht.
Für unser Beispiel bekommen wir ein χ2 = 6.003 mit einem zugehörigen p-Wert von p = .0143. Wenn wir unser „Signifikanzniveau“ (die Wahrscheinlichkeit für den Fehler 1. Art, kurz α) wie üblich auf α = .05 festgelegt haben, haben wir also ein signifikantes Testergebnis (da p < .05).
Wir sollten uns also dafür entscheiden, dass auf Populationsebene ein Zusammenhang zwischen der Wirksamkeit des Medikaments und dem Geschlecht besteht. Oder anders formuliert: Das Medikament wirkt bei den beiden Geschlechtern unterschiedlich.
Inhaltliche Interpretation
Für die klinische Praxis ist das Ergebnis, dass ein Zusammenhang zwischen zwei Variablen besteht, allerdings meistens etwas unbefriedigend, da man natürlich genauer wissen möchte, wie dieser Zusammenhang denn konkret aussieht.
Anders gesagt: Wenn du bei Zusammenhangsanalysen mit kategorialen Variablen einfach nur den Chi-Quadrat-Test durchführst und dich dann bei einem signifikanten Ergebnis zurücklehnst, verpasst du die eigentlich klinisch relevanten Informationen. Du solltest stattdessen weitere Analysen durchführen, um den gefundenen Zusammenhang inhaltlich genauer beschreiben und interpretieren zu können.
Glücklicherweise ist unser Beispiel so einfach aufgebaut, dass für eine genauere Beschreibung des gefundenen Zusammenhangs ein Blick auf die erstellten Häufigkeitstabellen genügt. Da beide Variablen (Geschlecht und Medikamentenwirksamkeit) jeweils nur zwei Ausprägungen haben, gibt es auch nur zwei Möglichkeiten, wie der gefundene Zusammenhang zwischen Geschlecht und Medikamentenwirksamkeit inhaltlich interpretiert kann:
- das Medikament ist wirksamer bei den Frauen oder
- das Medikament ist wirksamer bei den Männern.
Und unsere bedingte Häufigkeitstabelle zeigt ja, dass der Zusammenhang hier so aussieht, dass das Medikament bei den Frauen wirksamer ist als bei den Männern.
Wenn in deiner Untersuchung allerdings eine der beiden Variablen mehr als zwei Kategorien haben sollte (z.B. weiblich, männlich und divers beim Geschlecht), wird die Sache etwas komplexer.
Denn nun gibt es natürlich viel mehr Möglichkeiten, wie der gefundene Zusammenhang inhaltlich aussehen kann. Und ein Blick auf die Häufigkeitstabellen reicht hier leider nicht, um herauszufinden, welche dieser Möglichkeiten zutrifft.
Um einen signifikanten Chi-Quadrat-Test in diesem Fall klinisch-inhaltlich sinnvoll und praxisrelevant interpretieren zu können, ist es in aller Regel notwendig, weitere post-hoc-Analysen durchzuführen.
Effektstärkemaße: Cramérs V und Odds-Ratio (OR)
Zusätzlich zu dem p-Wert und der Aussage, dass ein signifikantes Testergebnis vorliegt, ist es natürlich auch hilfreich, etwas mehr über die Größe des Effekts — also die „Stärke“ des gefundenen Zusammenhangs — sagen zu können. Die Größe der Teststatistik bzw. der p-Wert allein reicht für eine Beurteilung nicht aus, da beide (wie so oft in statistischen Tests) unter anderem von der Größe deiner Stichprobe abhängig sind.
Das für alle Fälle geeignetste Maß der Effektstärke für einen Chi-Quadrat-Test ist Cramérs V, das immer nur Werte zwischen 0 und + 1 annehmen kann. Ein V = 0 bedeutet dabei, dass keinerlei Zusammenhang vorliegt, ein V = 1, dass ein „perfekter“ oder „vollständiger“ Zusammenhang vorliegt.
Für die Beurteilung der Effektgröße V kannst du dich einfach an den Konventionen von Cohen (1988) zur Beurteilung der Größe der Korrelation orientieren:
- kleiner Effekt: ab V = .1
- mittlerer Effekt: ab V = .3
- großer Effekt: ab V = .5
In unserem Beispiel ist V = .173, was sich nach diesen Konventionen als „kleiner Effekt“ beurteilen lässt.
In der klinischen Praxis gibt man aufgrund der besseren Interpretierbarkeit häufig auch das Odds-Ratio (OR) als Maß der Effektstärke an. Wie der Name schon andeutet handelt es sich hier um das Verhältnis (ratio) zweier odds, was man auch mit „Chance“ übersetzen könnte.
Was ist damit gemeint? Schauen wir uns wieder die absolute Häufigkeitstabelle unseres Beispiels an:
| Männer | Frauen | Σ | |
| wirksam | 43 | 82 | 125 |
| nicht wirksam | 39 | 36 | 75 |
| Σ | 82 | 118 | 200 |
| Männer | Frauen | Σ | |
| wirksam | 43 | 82 | 125 |
| nicht wirksam | 39 | 36 | 75 |
| Σ | 82 | 118 | 200 |
Die Chance, dass das Medikament bei Männer wirksam ist, ist gerade die Anzahl der Männer, bei denen das Medikament wirksam war, geteilt durch die Anzahl der Männer, bei denen es nicht wirksam war, also:
43/39 = 1.103
Klar: Wenn das Medikament bei genauso vielen Männern wirksam wie nicht wirksam wäre, dann wäre die Chance der Wirksamkeit bei den Männern gerade Eins. Wenn es sogar bei mehr Männern nicht wirksam wäre, wäre die Chance kleiner Eins.
In der Gruppe der Frauen berechnet sich die entsprechende Chance analog und man erhält hier den Wert
82/36 = 2.278
Bei beiden Geschlechtern ist also die Chance, dass das Medikament wirksam ist, größer als Eins (was auf eine generelle Wirksamkeit des Medikaments hindeutet), bei den Frauen ist die Chance jedoch deutlich höher.
Das Odds–Ratio berechnet sich nun ganz einfach als das Verhältnis dieser beiden Chancen. Welche der beiden Möglichkeiten du berechnen und als Effektstärke präsentieren solltest (Chance der Wirksamkeit bei den Männern geteilt durch Chance der Wirksamkeit bei den Frauen oder genau anders herum) hängt allein davon ab, welche inhaltliche Interpretation du für deinen Fall bevorzugst.
Spielen wir einfach mal beide Varianten für unser Beispiel durch:
- Variante: Chance der Männer geteilt durch Chance der Frauen. In diesem Fall erhalten wir ein Odds-Ratio von
OR = 1.103/2.278 = 0.484.
Was sagt uns das? Das bedeutet, dass die Chance, dass das Medikament bei Männern wirksam ist, nur etwa halb so hoch ist wie bei den Frauen.
- Variante: Chance der Frauen geteilt durch Chance der Männer. In diesem Fall erhalten wir ein Odds-Ratio von
OR = 2.278/1.103 = 2.065
Das bedeutet offenbar, dass die Chance, dass das Medikament bei Frauen wirksam ist, etwa doppelt so hoch ist wie bei den Männern.
Du siehst, beide Aussagen sagen im Prinzip das Gleiche, nur auf unterschiedliche Art und Weise. In der Praxis ist häufig die Interpretation eines Odds-Ratios größer als Eins leichter nachzuvollziehen als ein Odds-Ratio kleiner Eins.
Was es noch zu beachten gibt …
Besonders wichtig ist, dass du den Chi-Quadrat-Test nur dann sinnvoll durchführen kannst, wenn du unabhängige Stichproben hast, wie in unserem Beispiel. Das bedeutet, dass jede deiner PatientInnen nur in einer Zelle deiner Häufigkeitstabelle auftauchen darf. Jeder Patient ist entweder männlich oder weiblich und entweder war das Medikament wirksam oder nicht.
Unabhängige Stichproben/Beobachtungen liegen z.B. nicht vor, wenn du ein Messwiederholungsdesign hast und die gleichen Patient:innen zu mehreren Messzeitpunkten untersucht werden. Hier spricht man dann auch von abhängigen Stichproben. Abhängige Stichproben sind aber kein Grund zum Verzweifeln, denn dann kannst du statt des Chi-Quadrat-Tests McNemars-Test zur Analyse verwenden.
Solltest du insgesamt eine „recht kleine“ Stichprobe haben (Daumenregel: N < 20) oder sollten die Häufigkeiten in einer oder mehrerer Zellen deiner Häufigkeitstabelle „recht klein“ sein (Daumenregel: weniger als 5), dann kannst du sowohl für den Chi-Quadrat-Test als auch für McNemars-Test bestimmte Korrekturmethoden verwenden, um einer Verzerrung der Ergebnisse durch die geringe Stichprobengröße entgegenzuwirken.

