Je sais que j'ai besoin de moyenne et de s.d pour trouver l'intervalle, mais si la question est:
A survey of 1000 randomly chosen workers, 520 of them are female. Create a 95% confidence interval for the proportion of wokrers who are female based on survey.
Comment puis-je trouver la moyenne et la s.d pour cela?
Vous pouvez aussi utiliser prop.test
du package stats
ou binom.test
prop.test(x, n, conf.level=0.95, correct = FALSE)
1-sample proportions test without continuity correction
data: x out of n, null probability 0.5
X-squared = 1.6, df = 1, p-value = 0.2059
alternative hypothesis: true p is not equal to 0.5
95 percent confidence interval:
0.4890177 0.5508292
sample estimates:
p
0.52
Vous pouvez trouver intéressant cet article , où dans le tableau 1 à la page 861 sont donnés différents intervalles de confiance, pour une seule proportion, calculés à l'aide de sept méthodes (pour des combinaisons sélectionnées de n et r). En utilisant prop.test
vous pouvez obtenir les résultats des lignes 3 et 4 du tableau, tandis que binom.test
renvoie ce que vous voyez à la ligne 5.
Dans ce cas, vous avez une distribution binomiale, vous calculez donc intervalle de confiance de la proportion binomiale .
Dans R, vous pouvez utiliser binconf()
à partir du package Hmisc
> binconf(x=520, n=1000)
PointEst Lower Upper
0.52 0.4890177 0.5508292
Ou vous pouvez le calculer vous-même:
> p <- 520/1000
> p + c(-qnorm(0.975),qnorm(0.975))*sqrt((1/1000)*p*(1-p))
[1] 0.4890345 0.5509655
Vous pouvez également utiliser la fonction propCI
du package prevalence
pour obtenir les cinq intervalles de confiance binomiaux les plus couramment utilisés:
> library(prevalence)
> propCI(x = 520, n = 1000)
x n p method level lower upper
1 520 1000 0.52 agresti.coull 0.95 0.4890176 0.5508293
2 520 1000 0.52 exact 0.95 0.4885149 0.5513671
3 520 1000 0.52 jeffreys 0.95 0.4890147 0.5508698
4 520 1000 0.52 wald 0.95 0.4890351 0.5509649
5 520 1000 0.52 wilson 0.95 0.4890177 0.5508292
Un autre package: tolerance
calculera les plages de confiance/tolérance pour une tonne de fonctions de distribution typiques.