web-dev-qa-db-fra.com

De bonnes études de recherche sur l’efficacité des systèmes d’évaluation en ligne?

Je vais créer un site Web qui permet aux utilisateurs de télécharger et de voter sur le contenu de chacun (types d'images spécifiques), et je souhaite mettre en place un système de notation simple.

Je me fiche des utilisateurs et de l'examen de leurs habitudes de notation. Je veux seulement m'assurer que le "bon" contenu flotte en haut et le contenu "médiocre" en bas.

J'essayais de déterminer quel type de système de notation utiliser:

  1. Un système binaire upvote/downvote comme StackExchange ou Youtube .
  2. Un système de classement à 5 étoiles ou à n étoiles comme Netflix ou le système de classement précédent sur YouTube.
  3. Un système à vote uniquement ("comme" mais pas comme "détesté") comme Digg ou, je suppose, Facebook .

Ce qui me préoccupe avec une échelle de notation à 5 points, c'est que certains utilisateurs auront tendance à être des électeurs "extrêmes", votant tous les 5 et 1. Cependant, je me demande qu'avec un système de notation unaire, tous mes utilisateurs ne voteront pas "oui" pour tout.

Je sais que cette question est extrêmement subjective, alors je ne devrais peut-être pas la poser. Je suis simplement intéressé à lire une comparaison réfléchie et informative sur les avantages et les inconvénients de ces choix.

J'ai trouvé n article ce qui réduit le système de notation à cinq points car ils sont souvent mal pondérés - la pondération moyenne étant beaucoup trop élevée pour être utile:

Malheureusement, les sites ont découvert que les résultats de l’échelle à 5 points n’avaient aucun sens. Dans un large éventail d’applications, la majorité des utilisateurs ont attribué la note "5" à l’objet - la note moyenne attribuée à de nombreux types de sites est de 4,5 et plus.

2
Pandincus

Définir "efficacité". Si vous entendez par "efficace" un moyen efficace de saisir le consensus de la communauté, ils sont tous efficaces. Si par "efficacité" vous entendez la richesse des données renvoyées, l'utilisation d'une échelle de points sera plus "efficace" que l'utilisation d'un système binaire. Si, par "efficacité", vous entendez faciliter la mise en oeuvre d'un système de filtrage collaboratif, un système binaire est préférable.

Cette question est trop vague et dépend également du type d’évaluation (données) que vous recherchez et de ce qui est évalué. Ils ont chacun leur place.

L'article que vous avez cité concerne les systèmes d'échelle de points mal pondérés. Ce n’est pas parce que la plupart des gens qui notent un film sont des fans du genre/film que le système est inutile. Cela signifie simplement que vous devez mettre à l'échelle/calibrer le système d'évaluation de manière appropriée. Si le classement médian de tous les films est de 3,5 au lieu de 2,5, vous devez calibrer le système de classement de sorte qu'un 2,5 étoiles soit en réalité une moyenne de 3,5. De même, vous devez prendre en compte l’écart type et attribuer une valeur appropriée à la classification par étoiles. Si vous faites ces deux choses, alors la précision du système d'évaluation à 5 étoiles est très réelle et très précieuse.

Un autre avantage du système d’échelle de notation est qu’il ne s’agit pas uniquement d’un consensus communautaire. Vous pouvez réellement voir à quel point une personne aime ou non un film et la répartition des notations pour différentes données démographiques. Avec un système binaire simple, vous perdez tout cela. Vous savez seulement que X% des filles aiment ce film, pas le degré de leur goût. Et même cela peut ne pas être exact, car les personnes qui n'aiment pas/n'aiment pas beaucoup un film ne voteront probablement pas avec des options aussi limitées.

Avec un système unaire, la qualité des données est encore pire: il n'y a pas de distinction entre un film qui a très peu de voix parce qu'il est peu connu et un film qui a très peu de voix parce que c'est nul et que tout le monde le déteste. Un film aimé par 50% des téléspectateurs pourrait avoir exactement la même note qu'un film aimé par 100% des téléspectateurs, et il n'y aurait aucun moyen de le différencier.

OTOH, il y a toutes sortes de choses sympas que vous ne pouvez faire qu'avec un système à échelle de points, comme jeter des votes qui sont bien en dehors de l'écart type ou diluer les votes des utilisateurs qui votent régulièrement à un extrême ou à un autre. Vous pouvez également faire de meilleures recommandations basées sur des données de vote individuelles plus détaillées. Par exemple. regrouper les utilisateurs en fonction des éléments sur lesquels ils votent, mais également les classements relatifs qu'ils attribuent aux films: un utilisateur qui attribue un score de 5/10 aux Boondock Saints et un journal de basket-ball de 9/10 auront des goûts très différents d'un utilisateur qui donne à Boondock Saints un 9/10 et un journal de basket-ball 5/10.

Voulez-vous donc savoir dans quelle mesure une personne aime/n'aime pas une photo ou voulez-vous uniquement collecter des données pour un filtrage collaboratif? L'élément est-il évalué avec suffisamment de nuance qualitative et de diversité pour que les utilisateurs tentent même de l'évaluer correctement sur une échelle de 5 points (par exemple, les films par rapport aux vidéos youtube). Même le système unaire est utile si votre objectif principal est de maximiser la participation des utilisateurs ou si vous ne mesurez que la popularité (par exemple, un vote).

Sur une note de côté, une autre alternative est un système de notation relative dans lequel les utilisateurs sont montrés à 2 articles simultanément et choisissent ce qu'ils préfèrent. Cette approche mathématique implique des calculs un peu plus compliqués, mais elle offre la simplicité (pour les utilisateurs) du système binaire classique ainsi que la qualité des données d’un système de points.

Enfin, il existe toutes sortes de modifications à apporter aux systèmes de vote/d’évaluation pour tenir compte de la psychologie du vote et encourager/décourager certains comportements. Par exemple, des recherches ont montré que les utilisateurs votent très différemment selon qu’il s’agit d’un vote "pour des votes" ou sans conséquence. De même, si les utilisateurs disposent d’un nombre limité de voix (qu’ils doivent gagner), ils voteront plus judicieusement. Et vous pouvez forcer les utilisateurs à dépenser le même nombre de votes positifs que de votes négatifs pour compenser la tendance des utilisateurs à ne pas voter du tout pour des éléments qu'ils n'aiment pas. De même, si donner 5 étoiles à un film coûte 5 points de vote, vous constaterez probablement des schémas moins polarisés de la part des utilisateurs. Et les utilisateurs voteraient-ils avec plus de diligence si leurs votes étaient diffusés (par exemple sur Facebook)?

4
Lèse majesté