Je donne à l'utilisateur la possibilité d'évaluer les articles de presse de 1 à 5 étoiles. J'essaie de déterminer la qualité et l'intérêt des articles en fonction des évaluations des utilisateurs. Ma première pensée a été:
C'est à dire. un utilisateur évalue les articles qui l'intéressent et attribue une note plus élevée aux articles de qualité. Le problème est que les utilisateurs peuvent attribuer à un article une note positive comme signe d'intérêt ou négative comme signe de désintérêt - quelle que soit la qualité de l'article. Les notes positives/négatives peuvent donc indiquer l'intérêt et/ou la qualité, ou cela ne dépend pas de l'intention de l'utilisateur. Les métriques se chevauchent et cela devient déroutant.
Une solution à cela consiste à fournir à l'utilisateur deux façons d'évaluer le contenu:
"Does the subject of this article interest you?" (YES/NO)
"What do you think of the quality of this article?" 1-5 stars
Cela rend les choses plus claires quant à la façon dont je peux utiliser les données, mais l'utilisateur peut être confus. Pensez-vous que ce soit une bonne idée ou non? Existe-t-il un meilleur moyen de déterminer la qualité et l'intérêt du contenu?
Version TL; DR: ne le faites pas. Une cote simple fonctionne et vous donne quelques données limitées de bonne qualité. Si vous voulez plus de données, il existe des approches qui fonctionnent, mais sont beaucoup plus complexes que l'ajout d'une deuxième question. Les méthodes Homebrew comme une deuxième question vous donneront une grande quantité de données de mauvaise qualité qui ressemblent de manière trompeuse à la vraie chose, et en plus elles feront une pire expérience utilisateur.
Mesurer la satisfaction des utilisateurs et les concepts associés est un sujet très complexe, malgré le fait qu'il semble superficiellement facile ("Il suffit de leur demander").
Une note de cinq étoiles ne mesure pas la qualité du produit . Il mesure la valence et la force des sentiments du consommateur pour le produit. C'est une différence importante. Le premier est une caractéristique objective du produit qui doit être évaluée avec des fonctions cognitives. Le second fait partie du domaine affectif du consommateur. (Si vous n'êtes pas clair sur les différences entre la cognition, l'affect et la conation, les articles de Wikipedia fournissent un point de départ décent).
Mesurer l'affect par auto-déclaration est facile. Les humains connaissent leurs propres émotions, au moins au niveau de base de dire "j'aime ça" ou "je n'aime pas cela". Lorsque vous leur demandez de vous donner quelques étoiles, ils peuvent le faire très précisément. De plus, leur propre effort pour cela est plutôt faible. Ils rapportent simplement quelque chose qu'ils savent déjà. Dans le pire des cas, votre échelle n'est pas assez fine pour leur sentiment et ils passeront un certain temps à se demander s'il faut donner 3 ou 4 étoiles, car leur évaluation se situe entre eux et aucun ne se sent bien.
Exiger que les gens fassent une évaluation analytique de quelque chose leur est difficile. Ils n'aiment pas le faire, car c'est du travail. Il y a le premier argument contre cela: l'expérience utilisateur se dégradera considérablement. Mais ce qui est probablement encore pire, ils font des erreurs. Plus la tâche que vous leur confiez est difficile, plus ils sont susceptibles de commettre une erreur. Et la tâche que vous essayez de leur confier ici est vraiment difficile. Ce à quoi ils ont immédiatement accès, c'est leur propre sentiment. Ce que vous leur demandez de fournir, ce sont les moteurs de ce sentiment, les raisons pour lesquelles ils "ont décidé" d'aimer ou de ne pas aimer un produit. Et les gens sont vraiment moche à raisonner sur leurs propres états affectifs. Lorsque vous essayez de les forcer à le faire de toute façon, ils signalent des résultats erronés, sans être conscients qu'ils ont tort. Toutes les conclusions que vous tirez des données collectées de cette manière sont également susceptibles d'être erronées.
Il existe de nombreux exemples de personnes incapables d'expliquer leurs sentiments. Les plus intéressants incluent le phénomène de prédiction affective (la recherche est principalement dirigée par Gilbert IIRC, mais l'article de Wikipedia couvre les points les plus importants) et le sentiment de certitude - voir Burton, Robert, Pour être certain: croire que vous êtes à droite même quand vous ne l'êtes pas (Macmillan, 2009) pour un texte pop-science très sympa. Un autre, plus proche de votre cas, se produit ici sur le réseau d'échange Stack. La différence entre le downvoting et la diffusion d'un indicateur de "très faible qualité" est bien documentée et expliqué dans l'interface utilisateur, mais les utilisateurs continuent de les confondre. Je pense que ce qui se passe, c'est que les gens utilisent les deux comme expression de leur affect, au lieu de réfléchir aux raisons de ne pas aimer une réponse et de voter pour "pas utile" et de signaler "si difficile à comprendre que je ne peux même pas extraire un sens en dehors de ça".
C'est ce qui est également arrivé aux chercheurs en marketing dans les années 70. Ils ont fait exactement ce que vous essayez de faire ici, créant le concept d'analyse des performances d'importance (Publication de référence: Martilla, John A. et John C. James, "Importance-performance analysis." The Journal of Marketing (1977): 77-79.). Là, les consommateurs sont invités à évaluer un produit sur la qualité de ses performances dans une dimension donnée (ce qui correspond probablement à ce que vous voulez savoir avec votre question de qualité, mais vous ne faites pas de distinction entre les dimensions), et l'importance de cette dimension pour eux (ce qui ressemble un peu à votre question d'intérêt, même si vous la posez à un niveau plus abstrait). Après des décennies de recherche, des études ont tenté d'évaluer l'utilité de l'analyse de la performance en tant qu'outil, et elles ont révélé des faiblesses importantes. Le pire était que les échelles n'étaient pas indépendantes - les gens avaient tendance à classer tout soit haut ou bas sur les deux échelles. C'est un signe qu'ils ne font pas de distinction claire entre les deux concepts lorsqu'ils répondent aux questions. Une liste complète des faiblesses de l'analyse des performances d'importance peut être trouvée dans le livre Satisfaction (Oliver, Richard L., Satisfaction: A behavioral perspective on the consumer, ME Sharpe, 2010.).
Les résultats de décennies de recherche en marketing et en psychologie sont clairs. En utilisant une approche simple, vous pouvez obtenir des informations limitées (résoudre le simple problème d'apprendre ce que vos utilisateurs aiment), qui peuvent néanmoins être très utiles pour vous. Comme vous le voyez, de nombreuses entreprises l'utilisent avec de bons résultats. Si vous avez vraiment besoin d'informations plus approfondies (résoudre le problème difficile d'apprendre pourquoi vos utilisateurs aiment quelque chose), vous devez utiliser la bonne approche, qui est très complexe. Cela impliquerait une étude marketing autonome, qui devrait être réalisée par elle-même et non intégrée dans les outils de notation de produit d'un site Web (car elle nécessite une certaine expérience de la part de la personne qui l'exécute et lots attention des participants). Mais il n'y a pas d'approche simple capable de résoudre le problème difficile. Si vous parvenez à en trouver un, vous obtiendrez probablement l'analogue marketing d'un prix Nobel.
Si un utilisateur est sur la page du fil d'actualités et voit un article sans intérêt, il devrait être en mesure de cacher cet article (en cliquant sur une croix par exemple), comme vous pouvez le faire pour les publicités sur de nombreux sites Web aujourd'hui. C'est comme une réponse
Does the subject of this article interest you ? NO
Pour un meilleur contenu, pensez aussi aux tags (culture, technologie, politique, etc.) qui filtrent déjà les actualités pour une meilleure expérience utilisateur personnelle.
Afin d'obtenir une notation plus spécifique, vous pouvez proposer un système de notation différent (mais intuitif). Regardez buzzfeed.com , ils n'ont pas cette note classique de 5 étoiles ou un simple système de montée/descente mais les utilisateurs peuvent choisir entre différentes réactions (et aussi aimer/détester la publication).
Plus généralement, les utilisateurs ne veulent pas passer plus de 2 secondes pour évaluer un simple article, surtout s'ils lisent 10 nouvelles ou plus chaque jour. Vous devez donc les laisser cacher ce qu'ils n'aiment pas et ne pas trop leur demander.