Je ne trouve pas de description de ce que représentent les points d'extrémité des lignes d'un boxplot.
Par exemple, voici des valeurs en points au-dessus et en dessous de la fin des lignes.
(Je me rends compte que le haut et le bas de la boîte sont le 25e et le 75e centile, et la ligne médiane est le 50e). Je suppose, car il y a des points au-dessus et au-dessous des lignes qu'ils ne représentent pas les valeurs max/min.
Les "points" à la fin de la boîte à moustaches représentent des valeurs aberrantes. Il existe un certain nombre de règles différentes pour déterminer si un point est une valeur aberrante, mais la méthode que R et ggplot utilisent est la "règle 1.5". Si un point de données est:
ce point est alors classé comme une "valeur aberrante". Les moustaches sont définies comme suit:
moustache supérieure = min (max (x), Q_3 + 1,5 * IQR)
moustache inférieure = max (min (x), Q_1 - 1,5 * IQR)
où IQR = Q_3 - Q_1, la longueur de la boîte. Ainsi, la moustache supérieure est située au plus petit de la valeur maximale x et Q_3 + 1,5 IQR, tandis que la moustache inférieure est située au plus grand du plus petit valeur x et Q_1 - 1,5 IQR.
Informations supplémentaires
Exemple
Considérez l'exemple suivant
> set.seed(1)
> x = rlnorm(20, 1/2)#skewed data
> par(mfrow=c(1,3))
> boxplot(x, range=1.7, main="range=1.7")
> boxplot(x, range=1.5, main="range=1.5")#default
> boxplot(x, range=0, main="range=0")#The same as range="Very big number"
Cela donne le tracé suivant:
Lorsque nous réduisons la plage de 1,7 à 1,5, nous réduisons la longueur de la moustache. Cependant, range=0
est un cas particulier - il équivaut à "range = infinity"
Je pense que ggplot utilise les valeurs par défaut standard, les mêmes que boxplot: "les moustaches s'étendent jusqu'au point de données le plus extrême qui n'est pas plus de [1,5] fois la longueur de la boîte loin de la boîte"
Voir: boxplot.stats
Tutoriel P1IMSA 8 - Comprendre les tracés de boîtes et de moustaches la vidéo offre une explication visuelle étape par étape des tracés de boîtes et de moustaches (Tukey).
À 4m 23s, j'explique la signification des extrémités des moustaches et sa relation avec le 1.5 * IQR.
Bien que le graphique montré dans la vidéo ait été rendu en utilisant D3.js plutôt que R, ses explications concordent avec les implémentations R des boîtes à moustaches mentionnées.