Quelqu'un pourrait-il expliquer aux naïfs statistiquement quelle est la différence entre Multiple R-squared
et Adjusted R-squared
est? Je fais une analyse de régression à une seule variable comme suit:
v.lm <- lm(epm ~ n_days, data=v)
print(summary(v.lm))
Résultats:
Call:
lm(formula = epm ~ n_days, data = v)
Residuals:
Min 1Q Median 3Q Max
-693.59 -325.79 53.34 302.46 964.95
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2550.39 92.15 27.677 <2e-16 ***
n_days -13.12 5.39 -2.433 0.0216 *
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 410.1 on 28 degrees of freedom
Multiple R-squared: 0.1746, Adjusted R-squared: 0.1451
F-statistic: 5.921 on 1 and 28 DF, p-value: 0.0216
L '"ajustement" en R ajusté au carré est lié au nombre de variables et au nombre d'observations.
Si vous continuez à ajouter des variables (prédicteurs) à votre modèle, le R au carré s'améliorera - c'est-à-dire que les prédicteurs sembleront expliquer la variance - mais une partie de cette amélioration peut être due uniquement au hasard. Le R au carré ainsi ajusté tente de corriger cela en prenant en compte le rapport (N-1)/(N-k-1) où N = nombre d'observations et k = nombre de variables (prédicteurs).
Ce n'est probablement pas un problème dans votre cas, car vous avez une seule variante.
Quelques références:
Le R ajusté au carré est proche, mais différent de, la valeur de R2. Au lieu d'être basé sur la somme expliquée des carrés SSR et la somme totale des carrés SSY, il est basé sur la variance globale (une quantité que nous ne calculons généralement pas), s2T = SSY/(n - 1) et la variance d'erreur MSE (du tableau ANOVA) et est calculé comme suit: R-carré ajusté = (s2T - MSE)/s2T.
Cette approche fournit une meilleure base pour juger de l'amélioration de l'ajustement due à l'ajout d'une variable explicative, mais elle n'a pas l'interprétation résumante simple de R2.
Si je n'ai pas fait d'erreur, vous devez vérifier les valeurs de R-carré et R-carré ajustées comme suit:
s2T <- sum(anova(v.lm)[[2]]) / sum(anova(v.lm)[[1]])
MSE <- anova(v.lm)[[3]][2]
adj.R2 <- (s2T - MSE) / s2T
De l'autre côté, R2 est: SSR/SSY, où SSR = SSY - SSE
attach(v)
SSE <- deviance(v.lm) # or SSE <- sum((epm - predict(v.lm,list(n_days)))^2)
SSY <- deviance(lm(epm ~ 1)) # or SSY <- sum((epm-mean(epm))^2)
SSR <- (SSY - SSE) # or SSR <- sum((predict(v.lm,list(n_days)) - mean(epm))^2)
R2 <- SSR / SSY
Le R au carré ne dépend pas du nombre de variables dans le modèle. Le R ajusté au carré est.
Le R ajusté au carré ajoute une pénalité pour l'ajout de variables au modèle qui ne sont pas corrélées avec la variable que vous essayez d'expliquer. Vous pouvez l'utiliser pour tester si une variable est pertinente pour la chose que vous essayez d'expliquer.
Le R au carré ajusté est le R au carré avec quelques divisions ajoutées pour le rendre dépendant du nombre de variables dans le modèle.
Notez qu'en plus du nombre de variables prédictives, la formule R ajustée au carré ci-dessus s'ajuste également à la taille de l'échantillon. Un petit échantillon donnera un R au carré trompeusement grand.
Ping Yin & Xitao Fan, J. of Experimental Education 69 (2): 203-224, "Estimating R-square shrinkage in multiple regression", compare différentes méthodes d'ajustement du r-carré et conclut que celles couramment utilisées citées ci-dessus sont pas bon. Ils recommandent la formule Olkin & Pratt.
Cependant, j'ai vu certaines indications que la taille de la population a un effet beaucoup plus important que n'importe laquelle de ces formules. Je ne suis pas convaincu que l'une de ces formules soit suffisamment bonne pour vous permettre de comparer les régressions effectuées avec des tailles d'échantillon très différentes (par exemple, 2000 vs 200000 échantillons; les formules standard ne feraient presque aucun ajustement basé sur la taille de l'échantillon). Je ferais une validation croisée pour vérifier le r au carré sur chaque échantillon.