Bimodale Verteilung

Eine Verteilung wird als bimodal beschrieben wenn sie zwei Modi besitzt. Es finden sich also innerhalb eines Histogramms zwei Maxima (oder “Gipfel”).

Dies kann z.B. vorkommen, wenn innerhalb der Altersverteilung sowohl die 20-25jährigen, als auch die 50-55jährigen Personen besonders häufig ins Kino gehen, während alle anderen Altersgruppen entweder kein Geld, keine Zeit oder kein Interesse mehr an Kino haben.

 

 

Bonferroni Korrektur

Die Bonferroni Korrektur ist eine Methode zur Kontrolle des α-Fehlers (Verhinderung von α-Fehler-Inflation) beim Durchführen multipler Signifikanztests. Um die Wahrscheinlichkeit bei n Signifikanztests einen Fehler 1. Art (siehe α-Niveau) zu machen unter 5% zu halten, muss der p-Wert eines einzelnen Tests ≤  α/n liegen, um als signifikant zu gelten. Eine solche Korrektur ist v. a. dann notwendig, wenn das Vorgehen nicht hypothesengeleitet ist, kann aber bei einer hohen Anzahl von Tests zu streng sein.

Was bedeutet das?

Jeder Test, den wir rechnen hat die Wahrscheinlichkeit von 5 % signifikant zu werden, OHNE dass das ein wirklicher Unterschied zwischen den zu vergleichenden Gruppen besteht. Wir nehmen also unsere Testhypothese (H1) an, obwohl die Nullhypothese (H0) gilt. Diesen Fehler nennt man Fehler 1. Art oder auch α-Fehler.

Wenn ich nun also 3 Tests rechne, verdreifacht sich die Wahrscheinlichkeit den α-Fehler zu machen, er liegt nun also schon bei 15 %. Wenn ich also sehr viele Tests einfach mal so rechne, entsteht die so genannte α-Fehler-Inflation.

Und das ist gerade im Bereich des explorativen Testens gefährlich, weil ich innerhalb meiner Daten alles mit jedem vergleiche und – wen wundert’s – irgendwann schon irgendetwas Signifikantes herausbekomme. Würde ich also in dieser Art vorgehen, und dann meine Effekte unkritisch interpretieren (was sehr oft gemacht wird), dann ist die Wahrscheinlichkeit sehr hoch, dass die Ergebnisse keine relevante Bedeutung haben, weil sie auf die α-Fehler-Inflation zurückzuführen sind.

Was also tun?

Wenn ich explorativ teste, also keine zugrunde liegende Hypothese teste, dann muss das α-Niveau umbedingt für multiple Vergleiche korrigiert werden. Das kann ich machen, in dem ich den p-Wert, ab dem mein Ergebnis gängigerweise als signifikant gelabelt wird (also p = 0.05) durch die Anzahl der gerechneten Tests teile. Das nennt man dann z.B. die Bonferroni-Korrektur. Bei 3 Tests wäre der neue kritische p-Wert dann 0.05 / 3 = 0.0167. Alle Ergebnisse mit einem p-Wert ≤ 0.0167 wären dann als signifikant anzusehen, alles darüber nicht. Diese Korrektur ist allerdings sehr konservativ, also sehr streng.

Das beste Vorgehen ist also immer schon vor dem Testen Hypothesen zu generieren, in dem die Literatur intensiv gelesen wird und zu erwartende Effekte definiert werden.

 

 

 

Bootstrapping

Bootstrapping ist ein statistisches Verfahren, bei dem die Verteilung eines Zielkennwertes durch wiederholtes Ziehen mit Zurücklegen von x Unterstichproben der Größe N aus einer schon erhobenen Stichprobe geschätzt wird.

Die erhobenen Daten werden also im Grunde wie die Gesamtpopulation behandelt, aus der wiederum Stichproben gezogen werden. Für jede gezogene Unterstichprobe wird dabei der interessierende Parameter (z. B. der Mittelwert) berechnet. Aus allen berechneten Mittelwerten lässt sich dann die Verteilung des Zielkennwertes bilden und der Standardfehler der Stichprobenkennwertverteilung schätzen.

Und daraus kann dann wiederum ein p-Wert und ein Konfidenzintervall für den wahren Wert des Zielkennwertes in der Gesamtpopulation abgeleitet werden (siehe auch Zentraler Grenzwertsatz). Das ist besonders wichtig, da wir den wahren Wert unseres Merkmals in der Gesamtpopulation nicht messen können.

Bootstrapping erlaubt uns also eine bessere Schätzung des wahren Zielkennwertes innerhalb der Gesamtpopulation. Und dies geschieht anhand der erhobenen Stichprobe und der aus ihr gezogenen x Unterstichproben.

 

 

Boxplot

Der Boxplot (auch: Whisker Diagramm oder Box-Whisker-Plot) ist die graphische Darstellung der Fünf-Punkte Zusammenfassung einer kontinuierlichen Variable (Minimum, 25%-Quantil, Median, 75%-Quantil, Maximum) und wird häufig dazu verwendet Ausreißer zu Identifizieren.

Das Zentrum der Box bildet der Median, die Enden das 25%- und 75%-Quantil. Die Whisker reichen bis zu den kleinsten und größten Werten, die noch keine Ausreißer darstellen. Ausreißer (dargestellt durch Punkte) sind Werte, die mehr als 1.5 Interquartilsabstände (Länge der Box) vom unteren bzw. oberen Ende der Box entfernt liegen. Extremwerte (dargestellt durch Sternchen) sind Werte, die mehr als 3 Interquartilsabstände vom unteren bzw. oberen Ende der Box entfernt liegen.

Anleitung: In SPSS erzeugt man einen Boxplot über Grafiken/ Diagrammerstellung/ Boxplot. Hier einfach die kontinuierliche Variable in die y-Achse ziehen und bestätigen.

Nach der Erstellung kann die Grafik in der Outputdatei durch klicken auf die Grafik beliebig angepasst werden. Am leichtesten geht dies, wenn man eine Vorlage über Datei/Vorlage zuweisen direkt auswählt. Hier bietet sich zum Beispiel Publikation grey an.

Expertentipp: Soll die Grafik für eine Abschlussarbeit oder eine Publikation verwendet werden, dann sollte unbedingt auf Farben verzichtet werden. Das spart Druckkosten, da Farbgrafiken extrem teuer sind.

 

 

 

Chi-Quadrat-Test

Der Chi-Quadrat-Test ist ein Test mit einer Chi2-verteilten Teststatistik. Der Term bezieht sich i. d. R. auf den Chi2-Test, der die Unabhängigkeit zwischen zwei nominalskalierten Variablen testet.

Dies erfolgt durch den Vergleich einer Kontingenztabelle (empirisch beobachtete Häufigkeitsverteilung) und einer Indifferenztabelle (erwartete Häufigkeitsverteilung bei perfekter Unabhängigkeit). Eine höhere Differenz zwischen Kontingenztabelle und Indifferenztabelle resultiert in einem höheren Chi-Quadrat Wert, für den dann anhand der Chi-Quadrat-Verteilung ein p-Wert ermittelt werden kann.

 

 

Trag dich hier für Dr. Ortmanns beste Maildizin ein und erhalte regelmässige für deine empirische Promtion

You have Successfully Subscribed!