web-dev-qa-db-fra.com

Utilisabilité des tests A / B [déterminer la taille du groupe de tests]

Il existe de nombreux tests A/B mais ils ont une chose en commun, ils sont destinés à améliorer la conversion des utilisateurs ou à augmenter le montant des ventes. Mon objectif n'est pas d'améliorer les conversions ou d'augmenter les ventes mais de vérifier pourquoi la version A ou B est meilleure.

J'utilise donc un test A/B sur une application de comptabilité (web) pour vérifier si/pourquoi un nouveau design est meilleur que l'autre. Je comprends qu'un test A/B ne serait pas une meilleure pratique dans cet exemple, mais j'essaie d'y parvenir en utilisant un test A/B.

Donc, quelques questions.

1.) Existe-t-il un moyen de mesurer si la version A ou B est mieux basée sur la convivialité.

Exemple: Comment pouvez-vous mesurer (dans le contexte de l'utilisabilité) si un bouton bleu fonctionne mieux qu'un bouton rouge.

2.) Existe-t-il un moyen de calculer la taille d'un groupe de test A/B concernant l'utilisabilité (sans utiliser de taux de conversion)

Exemple: L'application Web compte 500 visiteurs quotidiens. Comment déterminez-vous la taille du groupe de test?

2
Bjorneh

Existe-t-il un moyen de mesurer si la version A ou B est mieux basée sur la convivialité?

Oui. Sélectionnez la dimension d'utilisation que vous souhaitez poursuivre et mesurez-la. Habituellement, les tests A/B mesurent les taux de "réussite" ou de "conversion", ou la probabilité qu'un utilisateur accomplisse une tâche clé. Donc, si la tâche consiste à remplir un formulaire (par exemple, pour effectuer un achat, une inscription ou une publication), comptez le nombre de personnes qui ne le remplissent pas et soumettez le formulaire avec chaque conception. Cependant, les tests A/B peuvent être utilisés pour d'autres dimensions de l'utilisabilité, telles que la vitesse de réalisation des tâches (par exemple, le temps pour remplir et soumettre un formulaire), ou la proportion d'utilisateurs faisant une erreur (par exemple, en entrant des données non valides dans un texte champ).

Dans tous les cas, vous avez besoin d'une théorie raisonnable (la partie "pourquoi") pour interpréter les résultats. Les tests A/B ne devraient pas être simplement "changeons un attribut aléatoire et voyons ce qui se passe". Choisissez A et B, car il y a des raisons de croire que l'un pourrait être meilleur que l'autre sur la dimension d'utilisation que vous avez choisie. Il n'est pas nécessaire que ce soit une théorie psychologique terriblement sophistiquée. Vous pensez peut-être qu'un bouton rouge est préférable car il serait plus facile à trouver sur votre formulaire. Vous pensez peut-être qu'un bouton bleu est préférable parce que vos utilisateurs associent le rouge à des actions destructrices dangereuses qu'ils ne veulent pas faire.

Sans théorie, la performance est ambiguë. Beaucoup d'utilisateurs ont-ils cliqué sur le bleu parce qu'il semble plus sûr? Ou l'ont-ils fait parce qu'ils se sont trompés si pour autre chose? Le premier est un succès, indiquant une meilleure convivialité. Ce dernier est une erreur, indiquant une plus grande facilité d'utilisation.

Comme le suggère Andrew Martin dans son commentaire, il faut parfois exécuter une série de tests A/B pour être sûr de bien l'interpréter. Si vous pensez que le bleu est plus performant que le rouge parce qu’il semble "plus sûr", alors pouvez-vous supposer que le vert fonctionnerait mieux encore (si la culture de vos utilisateurs le considère comme "le plus sûr")? Alors maintenant, vous testez le vert contre le bleu. Le test A/B est la méthode scientifique à l'œuvre.

Existe-t-il un moyen de calculer la taille d'un groupe de test A/B concernant l'utilisabilité (sans utiliser de taux de conversion)?

Non. La signification statistique d'un résultat a tendance à être dictée par la taille du plus petit marginal, qui dans les tests A/B est généralement le nombre total de conversions (nombre de conversions de A et de B, qui ont tendance à être beaucoup moins que le nombre de non-conversions). Cependant, vous pouvez probablement obtenir une estimation raisonnable du taux de conversion à partir des performances actuelles du produit.

Vous devez également définir ce que vous considérez comme une différence de performance "substantielle" entre A et B. Dans quelle mesure une conception doit-elle être meilleure que l'autre? Dans le cas des taux, quel pourcentage de conversions supplémentaires B doit-il avoir avant de vous soucier de la différence entre A ou B? Dix pour cent de conversions en plus? (C'est comme si 10 visiteurs sur 50 se convertissaient pour A, mais 11 sur 50 convertis pour B.) Cinquante pour cent de plus? (10 sur 50 contre 15 sur 50.) Deux fois le taux? (100% de plus, pour 10 sur 50 contre 20 sur 50.)

Une fois que vous avez sélectionné une différence substantielle, une estimation prudente (c'est-à-dire peut-être plus que suffisante) du nombre de conversions dont vous avez besoin est la suivante:

Nombre de conversions nécessaires de A et B = 4 * ((d + 2)/d) ^ 2

d est la différence substantielle sélectionnée, exprimée en différence proportionnelle (pas en pourcentage). Par exemple, si vous vous souciez si B fait aussi peu que 10% de mieux que A, alors c'est 4 * (2.10/0.10) ^ 2 = 1764 conversions. Si vous ne vous souciez que si B est au moins deux fois meilleur que A, alors c'est 4 * (3/1) ^ 2 = 36 conversions.

Utilisez maintenant votre estimation du taux de conversion global pour obtenir la taille totale de votre échantillon. Si vous estimez que 1 visiteur sur 10 convertit, la taille totale de votre échantillon (nombre de visiteurs) est de 10 * 1764 = 17640, ou 10 * 36 = 360, selon la différence substantielle que vous avez choisie. Si 1 sur 3 convertit, c'est 3 * 1764 = 5292, ou 3 * 36 = 108.

Ce n'est qu'une estimation. Cependant, si cela ne suffit pas (il semble y avoir une différence substantielle mais ce n'est pas statistiquement significatif), exécutez simplement le test A/B plus longtemps pour obtenir un plus grand nombre d'utilisateurs (par exemple, doublez la taille de l'échantillon) .

Stats Geek Corner

J'ai dérivé la formule ci-dessus de l'approximation normale de la distribution binomiale. Lorsque le nombre de conversions est beaucoup plus petit que le nombre de non-conversions, le test statistique peut être conservativement un test binomial de la différence des conversions avec l'hypothèse nulle P = 0,5, à condition qu'un nombre égal d'utilisateurs obtiennent A et B. l'approximation normale du binôme, l'erreur standard, se , avec P = 0,5 est:

se = (P * (1-P) * N) ^ 0,5

se = 0,5 * n ^ 0,5

Exprimé en proportion de n , le nombre de conversions, c'est

se = 0,5 * n ^ 0,5/n

se = 1/(2 * n ^ 0,5)

En appliquant un test bilatéral z , au niveau 0,05, la proportion de conversions pour la conception B (pour en choisir une arbitrairement) doit être d'au moins 1,96 * se sur 0,5 (l'hypothèse nulle) pour atteindre la signification. Tournons 1,96 à 2 (nous estimons seulement), donc:

accessoire sig pour B = 0,5 + 2 * 1/(2 * n ^ 0,5)

accessoire sig pour B = 0,5 + 1/n ^ 0,5

Si B est 2 se supérieur à 0,5, A doit être 2 sous:

accessoire sig A = 0,5 - 1/n ^ 0,5

ils résument donc à 1.

Lorsque le nombre d'utilisateurs prenant A et B est égal, la différence proportionnelle, d , est le rapport de ces deux proportions moins 1. Par exemple, si 0,4 des conversions se produisent avec A et 0,6 des conversions se produisent avec B, alors B est 0,6/0,4 -1 = 50% meilleur que A. Donc:

d = accessoire sig B/accessoire sig A - 1

d = (0,5 + 1/n ^ 0,5)/(0,5 - 1/n ^ 0,5) - 1

d = (n ^ 0,5 + 2)/(n ^ 0,5 - 2) - 1

Maintenant, nous résolvons pour n :

(d + 1) * (n ^ 0,5 - 2) = n ^ 0,5 + 2

d * n ^ 0,5 + n ^ 0,5 - 2 * d - 2 = n ^ 0,5 + 2

-2 * d - 4 = -d * n ^ 0,5

2 * (d + 2)/d = n ^ 0,5

4 * ((d + 2)/d) ^ 2 = n

"Électrodynamique quantique", comme disent les physiciens.

J'ai effectué des tests d'indépendance du chi carré pour d = 0,1 à 3,2, avec des taux de conversion de 1 sur 4 à 1 sur 1000, et les valeurs p réelles observées avec la taille d'échantillon dérivée et la différence proportionnelle étaient toujours comprises entre 0,02 et 0,05, donc comme une estimation prudente, cela fonctionne bien. Descendez à 1 conversion sur 2 (nombre égal de conversions et de non-conversions), il obtient aussi IMO conservateur: les valeurs p réelles sont inférieures à 0,006.

Plus de geekiness: les mises en garde

La formule est censée être une simple estimation approximative et conservatrice au bas de l'enveloppe. Comme vous pouvez le voir, il existe plusieurs raccourcis simplificateurs pour créer une formule simple qui ne nécessite pas beaucoup de calcul ou de compréhension statistique. C’est fondamentalement une astuce statistique de parti, et une façon de montrer qu’un échantillon "assez grand" peut varier beaucoup selon la situation.

De plus, la formule donne la taille d'échantillon dont vous avez besoin pour un d observé dans l'échantillon . Une analyse plus sophistiquée calculerait la taille de l'échantillon pour a d de la population et une probabilité sélectionnée de détecter toute différence significative dans l'échantillon, à savoir la puissance statistique. Pour mémoire, la formule ci-dessus donne une taille d'échantillon avec une puissance de seulement 0,5 pour une taille d'effet de population de d . La formule ci-dessus pourrait être étendue pour inclure un niveau de puissance sélectionné, mais cela ajoute la charge de choisir un niveau de puissance, en plus de choisir d et estimer le taux de conversion (je dirais également que si vous suivez cette voie, vous pouvez également reconsidérer alpha = 0,05).

S'il y a des inquiétudes au sujet des frais d'exécution du test A/B, alors optimisez certainement la taille de l'échantillon en effectuant une analyse de puissance, qui n'a pas de raccourcis simplificateurs (par exemple, en utilisant G * Power ou similaire). Engagez un statisticien pour le faire pour vous, si nécessaire.

1
Michael Zuschlag