Dans quelle mesure est-il important d'éviter les collisions de test A / B?

Question

Disons que vous avez 3 tests A/B en tant que tels

Contrôle vs A
Contrôle vs B
Contrôle vs C

À moins que vous ne travailliez spécifiquement pour vous assurer que les tests n'entrent pas en collision (exécutés les uns sur les autres), vous vous retrouverez avec des populations d'utilisateurs qui verront à la fois A + B, B + C, A + B + C.

Techniquement, parce que si vous regardez les résultats de l'expérience 1, Control et A verront un nombre égal de pollution de 2 et 3, donc la seule différence de performance entre 1. Control et A ne devrait être que les impacts de A.

Pensées? Est-ce toujours la meilleure pratique pour éviter les collisions ou peut-on simplement supposer, tant que la pollution est uniformément répartie, que nous sommes bons?

Nathan Rabe · Answer

En général, cela doit être fait sous la forme d'une série de tests A/B isolés ou comme un test multivarié.

C'est difficile à dire avec certitude sans plus de détails, mais il semble que vous ayez 4 versions possibles de votre page et que vous voulez voir celle qui fonctionne mieux.

Vous pouvez comparer le contrôle et A comme un seul test et voir lequel gagne. Ensuite, opposez le vainqueur de ce test contre B, puis le vainqueur de ce test contre C. (Si le contrôle perd, vous ne voulez pas perdre de temps à le tester contre B ou C.) Vous voudrez peut-être laisser un peu de temps entre teste la page pour qu'elle "s'installe" afin que les utilisateurs ne voient pas toujours de nouveaux éléments sur la page à chaque visite. Cependant, ce plan signifie que vous pourriez vous retrouver avec des populations d'utilisateurs légèrement différentes participant à chaque test au fil du temps. (Par exemple, si la version A a beaucoup de chatons et gagne, vous pouvez attirer plus d'amateurs de chats sur le site. Ensuite, si la version C a beaucoup de chiots, elle peut ne pas marquer aussi bien que si elle était partie en premier.)

Pour compenser cela, vous pouvez exécuter cela comme un test multivarié où vous avez 4 options: contrôle, A, B et C. 25% de votre trafic est envoyé à chacun et ils se font tous concurrence simultanément pour voir quelle version fonctionne mieux. L'inconvénient est que vous devez disposer d'un trafic suffisant pour le répartir de 4 façons, et les utilisateurs et votre équipe d'assistance peuvent devenir confus en voyant différentes versions du site.

Cela nous ramène aux collisions. La façon courante de suivre les tests A/B est avec les cookies. La version assignée au hasard de chaque utilisateur est mémorisée, donc quand ils reviennent, ils voient toujours la même page. Cependant, il est très fréquent que les utilisateurs effacent leurs cookies ou consultent les sites sur leurs téléphones ou ordinateurs de travail, ce qui leur fait voir une version différente.

Selon l'ampleur de vos modifications, cela est probablement correct du point de vue de l'expérience, mais pourrait être compliqué du point de vue de la qualité des données. Les utilisateurs ne seront probablement pas trop concernés par de petits changements comme la couleur des boutons ou les changements d'étiquette, mais vous ne saurez pas strictement si voir la version A sur leur téléphone les a obligés à effectuer la transaction sur la version B au travail ou si B a fait toute l'influence.

Il existe des moyens plus invasifs ou compliqués de suivre les choses, mais en général, la seule façon d'éviter le problème est d'exécuter le test sur la plus petite population pendant le temps le plus court nécessaire pour produire un résultat statistiquement valide.