J'ai conçu 4 versions d'une page de paiement. Je veux faire un test utilisateur pour savoir quelle version fonctionne mieux. Pensez-vous que je dois faire les tests avec la même personne? le grand changement dans l'interface est la mise en page. Les informations sont les mêmes, j'ai donc peur d'influencer les utilisateurs, car ils savent déjà comment fonctionne le système (après l'avoir vu une fois). Pensez-vous que c'est simplement mieux de demander, que préférez-vous parmi ces 4? ou je dois tester l'ensemble du processus de paiement pour voir si les nouvelles dispositions présentent des problèmes?
Chaque utilisateur devrait-il essayer les quatre versions?
La réutilisation du même utilisateur vous donne la possibilité de discriminer statistiquement des différences de performances plus petites entre vos versions, en supposant que vous connaissez les bonnes statistiques à appliquer (par exemple, ANOVA à mesures répétées, pour le temps d'exécution de la tâche). La réutilisation des utilisateurs vous permet de prendre en compte les différences idiosyncratiques des utilisateurs (comme indiqué par les performances moyennes de l'utilisateur sur les quatre versions), afin que vous puissiez vous concentrer sur la variabilité restante qui est attribuable aux différences entre les versions. La réutilisation des utilisateurs peut également réduire les coûts associés aux frais généraux de recrutement des utilisateurs - dans votre cas, pour obtenir la même quantité de données, vous n'avez besoin de recruter qu'un quart du nombre d'utilisateurs dont vous auriez besoin si chaque utilisateur n'essayait qu'une seule version .
Il est légitime de craindre que l'exposition à la première version ait un impact sur les performances des versions ultérieures pour chaque utilisateur. La solution consiste à " contre-balancer " l'ordre des versions pour que différents utilisateurs obtiennent des séquences de versions différentes et la position série moyenne des versions est la même pour tous les utilisateurs. Idéalement, vous exécutez exactement 24 utilisateurs et chaque utilisateur obtient l'une des 24 séquences de versions possibles (factorielles (4)). À tout le moins, le nombre d'utilisateurs devrait être un multiple exact de 4, et un quart des utilisateurs devraient avoir une séquence de versions de 1-2-3-4, un autre quart devrait avoir 2-3-4-1 , un autre devrait avoir 3-4-1-2, et un autre devrait avoir 4-1-2-3. Mélangez les séquences au hasard lorsque vous les distribuez aux utilisateurs (par exemple, le premier utilisateur obtient 2-3-4-1, le deuxième obtient 3-4-1-2, le troisième obtient 1-2-3-4 et le quatrième utilisateur obtient 4-1-2-3).
Dois-je demander aux utilisateurs ce qu'ils préfèrent?
La préférence subjective n'est que modérément corrélée aux performances objectives de l'utilisateur. Si vous voulez savoir quelle version fonctionne le mieux objectivement (par exemple, le moins d'erreurs, le temps de tâche minimum), utilisez une mesure objective. La version la plus excitante pour les utilisateurs (ou du moins les agaçait le moins) est une question UX légitime, mais différente de la version qui était en fait la plus facile à utiliser. Vous pouvez, bien sûr, mesurer à la fois les performances objectives et demander aux utilisateurs d'évaluer les versions de manière subjective pour capturer l'expérience utilisateur "complète".
Dans les deux cas, la préférence subjective peut être affectée par la séquence de versions que vous présentez aux utilisateurs, tout comme les performances objectives. Les utilisateurs peuvent avoir tendance à aimer la première chose qu'ils voient. Ou peut-être qu'ils aiment la dernière chose qu'ils voient. Je ne sais pas. Mais, plus précisément, qui s'en soucie? Pour obtenir des moyennes précises, contrebalancez l'ordre des versions lorsque vous demandez aux utilisateurs ce qu'ils préfèrent, tout comme vous le feriez pour des mesures objectives.
Dois-je tester l'ensemble du processus de paiement?
Statistiquement, vous pouvez utiliser un échantillon plus petit en concentrant la tâche sur les éléments sur lesquels vos versions varient. Cela réduit les effets aléatoires provenant d'autres choses, ajoutant du "bruit" à vos données, ce qui rend plus difficile d'entendre le "signal". Ainsi, n'effectuez qu'une partie de la tâche qui devrait être affectée par vos différentes dispositions. Par exemple, si l'endroit où entrer le numéro de carte de crédit est le même pour toutes les versions, arrêtez-vous avant d'arriver à cette partie.
D'un autre côté, ne rendez pas la tâche irréaliste (par exemple, n'interrompez pas le flux et la concentration de l'utilisateur pour lui dire de sauter cette étape ou cette étape). De plus, ce test d'utilisabilité pourrait être l'occasion de recueillir des données sur la page en général. Peut-être que vous pouvez trouver et résoudre des problèmes au-delà de ceux associés à la mise en page. Si vous avez du mal à recruter vos utilisateurs, il serait dommage de les "gaspiller".
J'ai conçu 4 versions d'une page de paiement.
Cela ressemble à des tests A/B/C/D :)
Je veux faire un test utilisateur pour savoir quelle version fonctionne mieux. Pensez-vous que je dois faire les tests avec la même personne?
Je le fais, car si vous regardez la définition des tests A/B, il faut qu'il y ait une comparaison entre différentes versions de la même conception pour voir celle qui fonctionne le mieux statistiquement.
Les informations sont les mêmes, donc j'ai peur d'influencer les utilisateurs, car ils savent déjà comment le système fonctionne (après l'avoir vu une fois). Pensez-vous que c'est simplement mieux de demander, lequel préférez-vous parmi ceux-ci 4?
Combien d'utilisateurs prévoyez-vous d'inclure dans la taille de l'échantillon? Si vous effectuez une affectation aléatoire pour les tests comme A/B l'exige généralement, différents utilisateurs seront présentés à différentes variantes de la conception pour compenser le biais.
Je dois tester l'ensemble du processus de paiement pour voir si les nouvelles dispositions présentent des problèmes?
Quels problèmes cherchez-vous à résoudre lors du processus de paiement? Vous ne voudrez peut-être pas utiliser les tests A/B, car les tests A/B ne sont généralement pas utilisés pour signaler des problèmes plus importants dans le système, tels que la crédibilité ou la fiabilité ou pour vous aider à comprendre pourquoi un utilisateur aime une conception plutôt qu'une autre. Il est principalement utilisé pour compléter d'autres méthodes qualitatives qui vous aident à mieux comprendre ce que veulent vos utilisateurs.
Le principal problème que vous rencontrerez si vous demandez simplement "lequel préférez-vous" est qu'il se révèle généralement être une préférence basée sur la mode et non sur la fonction. La raison pour laquelle nous testons, en particulier le test d'utilisabilité, est de déterminer celui qui fonctionne le mieux. Un test que nous avons effectué et qui semblait donner de bons résultats est un test d’utilisabilité dans lequel nous avons testé l’utilisateur sur toutes les interfaces, nous en avons eu trois, et nous les faisons exécuter les mêmes scénarios et nous observons. Si vos interfaces présentent des différences suffisamment importantes, cela aura un impact sur les résultats du test. Il vous suffit de déterminer s'ils le font. Par exemple: vos interfaces sont-elles simplement un Apple de différentes couleurs (c'est quand vous demandez qui vous plaît le plus) ou vos interfaces sont-elles un Apple, un chat, une voiture et un bazooka (alors vous exécutez un test d'utilisabilité et ensuite vous pouvez leur demander ce qu'ils pensent). Mais d'après mon expérience, nous avons effectué un test avec 8 à 12 personnes sur 3 interfaces différentes qui ont toutes fait la même fonction. Cela s'est bien passé. J'espère que cela vous aidera.
TL; DR Mesurer l'impact dans le monde réel (en termes de revenus, pas de taux de conversion) en utilisant un véritable test de partage, pas les préférences des utilisateurs.
Montrer toutes les versions à un utilisateur réel entraînera probablement de la confusion et augmentera les taux d'abandon, quel que soit l'ordre dans lequel vous montrez les variations.
Voici comment fonctionne le test de fractionnement: proposez quelques variantes, puis divisez votre public et montrez une variation à chaque membre du public. Ainsi, vous ne devriez montrer qu'une version de visiteur donnée A, B, C ou D, même si elle revient plusieurs fois; il devrait en être de même pour chaque visite de cette personne, sauf si et jusqu'à ce que vous modifiiez définitivement le design.
Maintenant, vous avez mentionné le "test utilisateur" pour déterminer quelle variante fonctionne le mieux. Si vous disposez d'un environnement contrôlé et que vous pouvez tester la réussite des participants à effectuer une action pour chaque variante, d'accord. Mais dans le monde réel, vous ne voulez pas confondre le visiteur en ayant une page différente à chaque fois qu'il visite. De plus, vous ne pouvez même pas savoir qu'un utilisateur du monde réel visitera cette page 4 fois.
Et comme d'autres le soulignent, tester les préférences ou les performances (en termes d'achèvement) dans un laboratoire ne vous dit rien sur la façon dont une variation se déroule dans la nature. Un utilisateur du laboratoire qui est informé, " Ici, essayez de commander sur cette page ", va essayer de passer à la caisse, point final, car c'est pourquoi ils sont là. Un utilisateur du monde réel, présenté avec la même page, pourrait bien abandonner l'effort. Vos tests de laboratoire ne vous diront rien sur la probabilité que l'utilisateur réel abandonne.
C'est exactement pour cela que ErgonomieHub a été conçu. Voici quelques extraits de leur page d'accueil: