Overfitting ist eine Gefahr bei der Modellselektion (siehe: Modellselektion) innerhalb der (linearen) multiplen Regression. Das Problem ist folgendes: In der linearen Regression führt das Hinzunehmen von Prädiktoren IMMER dazu, dass das Modell die vorliegenden Daten etwas besser erklärt. Das gilt selbst dann, wenn es sich um zufällig generierte Prädiktoren handelt, die in Wahrheit nichts mit dem Kriterium zu tun haben. Es ist also zu erwarten, dass ein Modell die Daten besser erklärt, wenn mehr Prädiktoren enthalten sind. Allerdings wollen wir im Rahmen deiner multiplen Regression immer nur jene Prädiktoren auswählen, welche in Wahrheit wirklich einen Effekt auf das Kriterium haben und somit klinisch relevant sind. Overfitting bezeichnet die Situation, wenn uns dies nicht gelingt und wir Prädiktoren in das Modell aufnehmen, welche die Daten zwar besser zu erklären scheinen, in Wirklichkeit aber nicht maßgeblich mit dem Kriterium zusammenhängen. Verschiedene Maße der Modellgüte (z. B. das AIC oder der BIC, siehe auch: AIC, BIC) lösen das Problem, indem sie für wachsende Modellkomplexität, also für mehr Prädiktoren, bestrafen. So wird ein Prädiktor nur dann mit Hilfe von Modellselektionsalgorithmen „hinzugenommen“, wenn er „mehr Erklärwert bringt, als er Modellkomplexität kostet“.