web-dev-qa-db-fra.com

A / B Format de test de test de convivialité?

Je prépare actuellement un test de convivialité pour une interface de module que je concevons et je souhaite pouvoir structurer le test pour assurer les meilleurs résultats.

Actuellement, il existe 3 versions de l'interface et trois groupes à tester:

Version A

  • Module 1
  • Module 2
  • Module 3

Version B

  • Module 1
  • Module 2
  • Module 3

Version c

  • Module 1
  • Module 2
  • Module 3

Actuellement, je suis un peu incertain sur la manière de structurer et de randomiser ce que chaque groupe teste et de la commande qu'ils testent chaque version pour s'assurer que les personnes n'apprennent pas comment faire les tâches que je leur demanderai.

Mon idée est-ce jusqu'à présent pour le test :

Groupe A: version A1, version B2, version c3

Groupe B: version A2, version B3, version C1

Groupe C: Version A3, version B1, version C2

Serait-il une différence si la version globale différente a été testée en premier pour différents groupes (c'est-à-dire que le groupe B ferait la version B3, puis la version C1, puis la version A2) et le module connecté à la version testée a-t-elle une différence?

Merci et apprécierait tout retour d'information.

1
turtlefish12

Vous devez définir quels moyens "meilleurs" pour votre interface, car vous semblez combiner différentes méthodologies et que vous ne trouvez peut-être pas les réponses que vous recherchez.

Un test A/B est une méthode quantitative où vous décidez d'une métrique particulière (clics de touches similaires) et vous voyez si la version A ou B donne plus de choses. Vous divisez A grand Nombre d'utilisateurs en deux groupes et affichez une seule expérience à chaque groupe et mesurez l'un des principaux impact sur votre métrique. Vous apprendrez ce qui fonctionne, mais vous n'en apprendrez pas pourquoi. Par exemple, une page avec des chiots ou des chatons sur elle vendra-t-il plus de chaussures?

Un test de convivialité est une méthode qualitative où vous explorez différentes manières que les utilisateurs interagissent avec une interface pour voir s'il existe des problèmes potentiels. Vous prenez un petit Nombre d'utilisateurs et exécutez-les à travers un scénario typique et observe comme ils interagissent avec l'interface. Vous apprendrez s'il y a des problèmes et apprenez souvent pourquoi ils se sont produits. Par exemple, les utilisateurs peuvent-ils ajouter des chaussures à leur liste de souhaits dans notre nouveau prototype?

Une comparaison équilibrée est celle où vous essayez de voir s'il existe une préférence pour une version, mais essayant de contrôler le biais de positionnement en randonnant la commande. Celles-ci sont généralement plus quantitatives que qualitatives car vous essayez de classer des choses, pas seulement obtenir des commentaires sur chacun. Par exemple, sur une échelle de 1-10, à quel point chaque chiot est mignon?

Si vous essayez d'optimiser quelque chose comme le temps de tâche à l'aide de tous les modules, cela peut être effectué avec un test A/B, bien que vous auriez besoin d'un public suffisamment grand pour se répandre sur 27 combinaisons à tester pour voir le cas échéant. temps. Ou vous pouvez faire de nombreux tests de moins de combinaisons, mais il faudrait éventuellement faire la fuite du gagnant de chaque test.

Si vous essayez d'apprendre s'il existe des problèmes de convivialité potentiels dans chaque module, il est probablement préférable de tester chacun individuellement à moins qu'elles ne soient connectées d'une manière ou d'une autre. Si chaque module est destiné à une tâche spécifique, créez un scénario dans lequel un utilisateur doit faire trois choses, une de chaque type de module. Cela ne comportera pas vraiment quelle version de chaque module qu'ils utilisent, mais les empêchent de la même chose pour la simplicité. Vous pouvez envisager de randomiser l'ordre des tâches/modules si vous craignez que des tâches ultérieures ne soient possible que grâce à la pratique, mais c'est pourquoi le test de chaque module peut être meilleur.

1
Nathan Rabe