BIC (Schwarz´s Bayesianisches Informationskriterium)

Der BIC ist ein Maß der Modellgüte. Je besser das Modell ist (d. h. je besser das Modell die Daten erklären kann), desto geringer wird er.

Anders als zum Beispiel das multiple R2 bestraft der BIC jedoch für wachsende Modellkomplexität. Das bedeutet, dass der BIC größer wird, je mehr Prädiktoren im Modell enthalten sind. Je komplexer das Modell ist, desto höher ist nämlich die Gefahr von Overfitting, also die Auswahl eines Modells, welches die Daten gut zu erklären scheint, aber in Wahrheit unbrauchbar ist.

Der BIC wird also kleiner, je besser die Prädiktoren sind und umso weniger Prädiktoren es gibt. Bei der Hinzunahme von mehr Prädiktoren sinkt BIC also nur so lange, wie ein Prädiktor „mehr bringt als er kostet“. Auf diese Art und Weise probiert der BIC Underfitting (= die Aufnahme zu weniger Prädiktoren) und Overfitting (= die Aufnahme zu vieler Prädiktoren; siehe auch: Underfitting, Overfitting) zu vermeiden und das beste Modell auszuwählen.

Das beste Modell ist also das Modell, mit dem geringsten BIC. Manchmal haben mehrere Modelle einen sehr ähnlichen BIC und es ist nicht klar, welches das Beste ist. Dann ist es sinnvoll, das klinisch relevanteste Modell auszuwählen. Das klinisch relevanteste Modell ist immer jenes mit den meisten signifikanten Prädiktoren.

Übrigens: Es gibt auch noch andere mit dem BIC vergleichbare Maße, zum Beispiel das AIC (Akaikes Informationskriterium). Der BIC ist im direkten Vergleich etwas konservativer als das AIC, wählt also tendenziell weniger Prädiktoren aus.

Es sollte v. a. dann verwendet werden, wenn die Stichprobengröße groß und die Anzahl der Prädiktoren gering ist. Es ist nicht wie das (adjustierte) R² im Sinne aufgeklärter Varianz interpretierbar, lässt aber ebenfalls den Vergleich zwischen verschiedenen Modellen zu. Ein geringerer Wert beschreibt einen besseren Fit des Modells an die Daten.

Determinationskoeffizient

Der Determinationskoeffizient (auch genannt) beschreibt den Anteil der Varianz einer abhängigen Variablen, der durch eine einzige unabhängige Variable erklärt wird. Er entspricht im Falle eines Korrelationstests dem Quadrat der Produkt-Moment Korrelation nach Pearson.

Im Falle mehrerer unabhängiger Variablen (Prädiktoren), wird der multiple Determinationskoeffizient verwendet: Er beschreibt den Anteil der Varianz einer abhängigen Variable, der (z. B. in Regressionsmodellen) durch die Gesamtzahl der unabhängigen Variablen erklärt werden kann.

Das R2 steigt dabei durch die Hinzunahme weiterer Prädiktoren unweigerlich an, auch wenn die Prädiktoren auf Populationsebene nicht mit der abhängigen Variable zusammenhängen. Deshalb wird zur Modellselektion häufig das adjustierte R², das AIC oder das BIC verwendet.

Intercept

Auch Konstante innerhalb statistischer Modelle genannt.

Der Intercept ist der vorhergesagte Wert des Kriteriums, wenn alle Prädiktoren innerhalb einer Regression Null sind. Wenn alle metrischen Prädiktoren im Regressionsmodell zentriert oder z-standardisiert wurden und alle kategorialen Prädiktoren dummy-kodiert wurden, dann lässt sich auch der Intercept des Regressionsmodells sinnvoll interpretieren.

In diesem Fall ist er nämlich schlichtweg der vorhergesagte Wert des Kriteriums, wenn alle Variablen mittelhoch ausgeprägt sind (für metrische Variablen) bzw. wenn es sich um die Referenzkategorie ( = mit 0 kodierte Kategorie bei kategorialen Variablen) handelt.

Kombinierte Rückwärts- und Vorwärtsselektion

Methoden zur Prädiktorenselektion innerhalb multipler Regressionen. Die kombinierte Rückwärts- und Vorwärtsselektion – du hast es geahnt – kombiniert die Rückwärtsselektion und die Vorwärtsselektion (siehe auch: Rückwärtsselektion, Vorwärtsselektion). In der Regel führen alle drei Methoden (Rückwärtsselektion, Vorwärtsselektion , kombinierte Rückwärts- und Vorwärtsselektion) zum gleichen Ergebnis, aber die kombinierte Rückwärts- und Vorwärtsselektion ist aufgrund ihrer Raffinesse ein kleines Stückchen näher dran an der Wahrheit. Eine weitere Selektionsmethode ist Best-Subset Selektion, die aber sehr zeitaufwendig ist und ebenfalls zu ähnlichen Ergebnissen wie die kombinierte Rückwärts- und Vorwärtsselektion kommt.

Linearität

Linearität ist eine wichtige Voraussetzung der linearen Regression. Wie der Name – lineare Regression – schon vermuten lässt, ist eine Grundannahme des Modells, dass der Zusammenhang zwischen den einzelnen Prädiktoren und dem Kriterium linear ist. Das ist auch häufig der Fall. Manchmal jedoch gibt es klare Hinweise darauf – entweder aus den Daten oder aus der Literatur – dass in Wahrheit ein anderer Zusammenhang (z. B. quadratisch, kubisch, logistisch, exponentiell…) vorliegt.

Lade dir hier die Formelsammlung für deinen Bland-Altman-Plot herunter

Melde dich für meinen Newsletter an und erhalte sofort das PDF!

You have Successfully Subscribed!

10 % Rabatt auf unsereWorkshops & Kurse im Onlineshop!

Trage dich hier für Dr. Ortmanns beste Maildizin ein und erhalte regelmäßige Rabatte, Tipps und Coachinginhalte für deine empirische Promotion

You have Successfully Subscribed!

Lade dir hier die Checkliste für deinen Methodenteil herunter

Melde dich für meinen Newsletter an und erhalte sofort das PDF!

You have Successfully Subscribed!


Jetzt 10 % Rabatt auf alle

Workshops & Kurse sichern!

You have Successfully Subscribed!

Downloade dir hier das Flowchart für deine ANOVA

Melde dich für meinen Newsletter an und erhalte sofort das PDF!

You have Successfully Subscribed!

Lade dir hier die Vorlage für den Aufbau deines Datensatzes herunter

Melde dich für meinen Newsletter an und erhalte sofort die Excel-Vorlage!

You have Successfully Subscribed!