Fiabilité des tests UX à distance (diffusion d'écran, A / B)

Question

Je suis curieux de connaître l'opinion de la communauté sur la fiabilité des tests UX.

Ceci est similaire à la question: But de l'enregistrement d'écran mais un peu plus large.

J'ai discuté avec plusieurs concepteurs UX de leur amour pour les tests A/B et d'autres tests à distance comme les captures d'écran, mais venant d'un arrière-plan fortement basé sur la recherche, je ne peux m'empêcher de penser qu'ils sont si peu fiables. Je base cela simplement sur le manque de contrôle des variables.

Par exemple, j'ai vu des concepteurs tester une nouvelle page de destination avec un appel à l'action différent (IV) et voir une amélioration de X% de la conversion (DV) sembler revendiquer entièrement la responsabilité de cette amélioration de la DV, mais il y a sûrement un nombre infini de variables en jeu ici qui auraient pu affecter le DV? Marketing, tarification, les utilisateurs (et les nombreuses variables qui les accompagnent)?

Je souhaite donc savoir dans la communauté comment vous analysez et tirez les conclusions des tests A/B et des captures d'écran. J'ai utilisé le logiciel FullStory (screencaster à distance) récemment et c'est vraiment intéressant de voir comment les utilisateurs utilisent nos trucs mais je suis prudent de prendre des mesures en fonction d'eux.

Je ne peux pas m'empêcher de penser que si j'avais présenté des études pendant ma thèse comme ces tests, mes professeurs m'auraient jeté dehors!

Kristiyan Lukanov · Accepted Answer

Cela revient à demander " les enquêtes sont-elles fiables? ". La fiabilité d'une expérience dépend de la méthodologie suivie, du contexte, des participants et du temps.

Les tests en laboratoire et sur le terrain présentent des avantages et des inconvénients. Et dans les deux cas, il est impossible d'obtenir un contrôle total des variables. Oui, dans les tests de laboratoire, vous avez plus de contrôle, mais cela ne signifie pas que cela assure la fiabilité.

La force des tests A/B:

produit de vraies données objectives
les participants sont dans leur contexte naturel
non effet observateur

Spécifiquement pour les tests A/B, il y a recommandation pour exécuter le test pendant plus de 2-3 semaines afin de tenir compte de la saisonnalité de l'entreprise ou de la variabilité des jours de la semaine. Par exemple, le taux de conversion le week-end pourrait être inférieur par rapport aux jours de la semaine.

Exemple:

En d'autres termes, si vous obtenez une signification statistique en seulement 2-3 jours, je vous conseillerais d'exécuter le test pendant au moins deux semaines , afin que vous obtenir des résultats plus fiables. Voici ce que vous pouvez faire pour augmenter la fiabilité.

Ne vous inquiétez pas de ce que diront vos superviseurs. Il suffit de leur parler. Ils essaieront de vous faire baser vos expériences sur des méthodologies bien connues afin qu'ils soient sûrs que les études seront approuvées. Mais cela est très limitatif car il bloque les expériences avec de nouvelles méthodes de recherche.

À mon avis, dans le domaine UX, l'entreprise évolue beaucoup plus rapidement et génère plus de méthodes de recherche UX que dans le monde universitaire.