Disons que j'ai les données suivantes:
Category positive neutral negative total
0 Category 1 1.000000 0.000000 0.0 2
1 Category 2 1.000000 0.000000 0.0 1
2 Category 3 0.222222 0.277778 0.5 18
Les données représentent la proportion de chaque catégorie qui sont positives/neutres/négatives (valence), et je veux communiquer 2 informations avec un graphique:
Graphique à barres empilées
La première chose que j'ai essayée était un graphique à barres empilées:
Avec un graphique à barres empilées, ses valeurs ne sont pas claires. Par exemple, comment interpréter le groupe négatif de catégorie 3? Est-ce à 50% car il ne couvre que la moitié de la hauteur verticale de la barre? Ou est-ce en fait 100%, juste que le positif et le neutre couvrent la moitié inférieure?
De plus, je pense que les proportions de valence ne sont pas claires en raison de l'empilement. Par exemple, quelle proportion de la catégorie 3 est neutre? Ce n'est pas clair car la ligne de base a été élevée et n'est plus à 0.
Diagramme à barres groupées
Ensuite, j'ai essayé un graphique à barres groupé:
Je pense que cela résout le problème de base, et il est facile de comparer les proportions relatives au sein de chaque catégorie, mais cela introduit 2 nouveaux problèmes:
J'ai également brièvement examiné un graphique à barres groupé avec des valeurs de comptage brutes au lieu de pourcentages, mais cela est problématique car les totaux entre les catégories sont assez déséquilibrés (par exemple, 18 contre 1), et ce qui m'intéresse principalement est la distribution de valence à l'intérieur chaque catégorie (c.-à-d. y a-t-il plus de positif que de négatif dans la catégorie 3?)
Quel est le moyen le plus efficace de communiquer ce type de données? Est-ce l'une des rares occasions où un graphique à secteurs est recommandé?
Un graphique à barres ou à colonnes est la meilleure option ici. Vous pouvez facilement comparer les valeurs lorsqu'elles sont adjacentes. Afin de contourner le problème que vous avez mentionné de "créer un graphique déséquilibré", vous pouvez ajouter des étiquettes de telle sorte que la valeur soit évidente:
ou vous pouvez définir une valeur minimale de sorte qu'un petit peu montre:
Pour résoudre votre deuxième problème, il n'est plus clair que la somme est de 100%, vous pouvez afficher l'unité de pourcentage et le lecteur supposera à partir du modèle que la somme est de 100%. Avoir un bon titre aidera également, "Répartition en pourcentage de _____":
Ce n'est pas une réponse complète car je pense qu'il manque encore un peu de contexte avec exactement ce que vous voulez montrer dans les graphiques (ce qui est probablement la première chose à considérer plutôt que le type de graphique), mais comme suggéré avant, il existe des données similaires visualisations utilisées pour afficher l'analyse des sentiments.
Il y a un document de recherche qui va dans certains des détails les plus fins impliqués, mais sans passer par tous les détails, vous pouvez voir quelques exemples si vous recherchez certains des fournisseurs de services dans cet espace, y compris :
Et plus encore, vous pouvez voir certaines variations dans la façon dont les informations d'analyse des sentiments peuvent être présentées. Gardez à l'esprit que si vous vous concentrez uniquement sur un canal de médias sociaux spécifique, la façon dont vous souhaitez présenter cela peut être différente de la combinaison de différents canaux de médias sociaux.
Vous voulez un graphique qui montre comment un tout est divisé entre ses parties constituantes. La convention populaire peut vous dire de penser en termes de graphique à secteurs.
À titre d'exemple, voici un graphique à secteurs avec trois catégories, montrant vos données avec trois types.
Il ressort clairement du graphique que près de la moitié du gâteau est neutre. Vous pouvez également probablement dire que le négatif représente plus d'un quart et qu'il est approximativement égal à la part du neutre. Mais vous pourriez avoir du mal à dire si la différence entre neutre et négatif est plus ou moins grande les unes que les autres. Nous sommes bien meilleurs pour repérer les droites et les angles droits que pour estimer avec précision les angles aigus et obtus (voir, par exemple, l'introduction ici ).
Bien que les graphiques circulaires nous donnent naturellement une idée de la partie à la totalité, nous ne sommes pas très bons dans les tâches de perception requises pour décoder la plupart des données encodées en leur sein. La recherche a montré que nous sommes plus aptes à percevoir les longueurs et les positions le long d'échelles alignées - tâches visuelles typiques lors de la lecture d'un graphique à barres - que nous sommes à juger les angles et les zones comme nous le faisons lors de l'étude d'un graphique à secteurs.
Bien sûr, les graphiques doivent avoir des étiquettes appropriées, afin que nous puissions les ajouter. Les différences relatives sont maintenant évidentes à partir du graphique à secteurs, car nous pouvons lire les étiquettes. Mais cela utilise un raisonnement verbal plutôt que visuel. Nous pouvons également lire les nombres d'une table, mais la table a l'avantage de l'alignement. Et une simple phrase énonçant les valeurs - par exemple "44% du gâteau est neutre, 39% est négatif et 17% est positif." - prend beaucoup moins de place.
Ceci est en ligne avec le recherche de Spence et Lewandowsky qui suggère que nous sommes mieux à juger des combinaisons sommées de secteurs dans les graphiques à secteurs que de barres dans les graphiques à barres. Prendre cette recherche à sa valeur nominale conduit à une question évidente à se poser: le but de votre graphique est-il de permettre à l'utilisateur prévu de comparer des combinaisons arbitraires de composants avec d'autres combinaisons arbitraires de composants? Dans l'affirmative, un graphique circulaire peut être un choix raisonnable (surtout si les données donnent lieu à des actions additionnées de 25% ou 50%).
Enfin, une alternative populaire au graphique circulaire est le graphique en anneau, où le centre du graphique a été supprimé et (fréquemment) remplacé par du texte.