web-dev-qa-db-fra.com

Un test A / B montre un vainqueur inexplicable pour un objectif distant

Nous avons effectué un test où nous avons testé 3 couleurs de bouton différentes pour un appel à l'action. Le CTA a conduit à notre page d'offres (où nous avions des offres spéciales pour vous inscrire à un forfait TV). Mais sur les 3 variations, aucune n'a montré une amélioration statistiquement significative par rapport au contrôle de notre objectif principal de faire en sorte que les utilisateurs s'inscrivent aux offres.

Cependant, une variation a montré une augmentation statistiquement significative du contrôle, mais pour un objectif complètement indépendant: les achats de films à la carte. Les films Pay per View ne sont même pas liés à partir de notre page d'offres, nous ne pouvons donc pas vraiment expliquer la différence.

Nous avons utilisé VWO et nous avons constaté une amélioration de 20% de notre bouton vert par rapport au bouton orange de contrôle. La variation gagnante a enregistré 255 conversions pour 49064 visiteurs, avec 98% de chances de battre le contrôle.

Faut-il lancer cette variante gagnante pour vivre? Comment l'expliquons-nous à l'entreprise?

7
Charles Shimooka

S'agissait-il d'un test unilatéral?

Tout d'abord, je pense que votre test statistique vous donne une valeur p unilatérale, plutôt qu'une valeur p bilatérale que vous devriez utiliser dans ce qui ressemble à un travail exploratoire. Je pense que vous dites que votre valeur de p est de 0,02 (c'est-à-dire qu'il y a 2% de chances d'obtenir la différence observée de conversions par hasard). Cependant, si le nombre de visiteurs de votre condition de contrôle est à peu près le même que la variation, il devrait être plus proche de la plage de 0,04 à 0,05 (je ne peux pas calculer la valeur exacte car (a) j'ai besoin de connaître le nombre de visites et les conversions pour le contrôle, et (b) une taille d'échantillon de près de 50 000 par variation souffle l'esprit de ma petite calculatrice Fisher Exact faite maison).

Erreur élevée de type I?

Pourtant, la valeur de p est suffisamment faible dans mon livre qu'il vaut la peine de croire que vous avez un effet systématique plutôt qu'aléatoire… sauf qu'il semble que vous fassiez beaucoup de tests. La façon dont les statistiques inférentielles fonctionnent, 1 variation sur 20 qui n'a en fait aucun effet réel le sera apparaît "statistiquement significatif" en moyenne. Un tel événement est appelé une erreur de type I. Cela implique que si vous testez de nombreuses variations pour des effets qu'elles ne devraient vraiment pas avoir, vous devez attendez-vous qu'une personne sur vingt montrera un effet parasite.

Vous avez donc fait 20 tests? Est-ce exactement ce à quoi vous devriez vous attendre si toutes vos variantes ne font rien sur quoi que ce soit? Même si vous n'avez pas effectué 20 tests, plus vous effectuez de tests, plus vous augmentez le risque qu'un ou plusieurs d'entre eux présentent une erreur de type I. Par exemple, il semble que vous ayez fait trois tests pour comparer trois variations avec le contrôle sur l'objectif principal, plus trois tests supplémentaires pour chaque variation sur l'objectif non lié, pour au moins six tests au total. Si, en fait, aucune de vos variations n'affecte quoi que ce soit, vous auriez une chance de 0,26 qu'au moins une sorte "statistiquement significative". C’est une chance assez élevée. Si vous avez fait 15 tests (par exemple, 3 variations testées sur 5 buts), vous auriez 0,54 chance –vous probablement obtiendra au moins un faux résultat. Je suppose que c'est ce qui se passe ici.

Impact économique?

Dans tous les cas, s'il s'agit d'un effet réel, notre meilleure estimation est que nous n'obtiendrons qu'environ 40 conversions supplémentaires pour 50 000 visiteurs. Cela ne vaut littéralement pas le coût du déplacement de la variante gagnante vers la production. Que ce soit ou non dépend du nombre de visiteurs que vous recevez par mois, du profit de chaque conversion et de la quantité de travail nécessaire pour mettre la variation en production. Vous devriez être en mesure de calculer le nombre de mois qu'il faudra pour que cela soit rentable. Si cela prend des années, je ne me dérangerais pas.

Leçon potentielle apprise

La leçon peut être que vous ne pouvez pas faire aveuglément confiance à ce que les services de test A-B en ligne vous disent. Beaucoup d'entre eux ne vous donnent qu'une valeur p approximativement correcte (c'est-à-dire erronée). En plus de ne donner que des valeurs unilatérales, elles vous obligent souvent à tester une seule variation par rapport à un contrôle à la fois, augmentant le nombre de tests et donc les chances d'un résultat erroné. Il existe des procédures assez simples et communément connues pour tester toutes les variations par rapport au contrôle (et les unes aux autres) d'un seul coup sur un objectif donné qui donne une seule valeur de p ( Khi deux ou G-test pour l'indépendance avec plus de 2 colonnes), mais les services en ligne ne vous offrent pas cette option. Il y a aussi un ajustement simple, appelé Correction Bonferroni , vous pouvez appliquer à des tests pour plusieurs objectifs qui contrôle ces résultats parasites (je peux vous dire que si vous appliquez la correction à vos données, cela ne plus proche de significatif).

Je discute de certaines des erreurs que vous voyez dans les tests A-B en ligne à Stat 2 . Pour une introduction non mathématique aux statistiques pour les tests de performances des utilisateurs, voir Stat 101 .

7
Michael Zuschlag

Sans avoir le site devant nous, il est probablement difficile pour nous de trouver des théories spécifiques. Cependant - certaines choses à penser.

  • Êtes-vous sûr de la méthodologie expérimentale? Y aurait-il pu y avoir une erreur?

  • Etes-vous sûr que les différentes options ont été présentées au hasard pendant toute la durée de vie de l'expérience? Si ce n'est pas le cas, des facteurs externes (par exemple, une promotion distincte pour le PPV) pourraient augmenter une variation plus qu'une autre. C'est vraiment un exemple du problème précédent - mauvaise méthodologie - mais je l'ai rencontré plusieurs fois (par exemple, les gens présentant l'option A, puis l'option B, puis l'option C - plutôt que les trois en parallèle).

  • Bien que la variation n'ait pas augmenté l'inscription à l'offre - a-t-elle eu d'autres effets sur le comportement des utilisateurs. Par exemple, supposons que votre processus d'inscription à l'offre soit

    1. les gens cliquent sur le bouton que vous testez
    2. les gens arrivent sur la page pour demander leurs coordonnées
    3. les gens obtiennent une dernière page pour confirmer leur achat
    4. achat effectué

    Si la variation rend plus probable que les gens passent de (1) à (3), mais ne rend pas plus probable que les gens arrivent à (4), alors vous ne voyez pas d'augmentation de l'inscription à l'offre. Cependant, si (2) et (3) affichent également des options PPV dans la navigation/les barres latérales, vous avez pour effet de présenter PPV à des personnes qui sont déjà venues sur le site dans l'attente de faire un achat - et peut-être que le PPV est un plus option intéressante pour eux à ce moment-là. D'où l'élévation du PPV.

Bien sûr, c'est une conjecture complète sans voir le site et en savoir plus sur votre méthodologie expérimentale.

Faut-il lancer cette variante gagnante pour vivre?

En supposant que ce n'est pas causé par une sorte d'erreur expérimentale - oui.

Comment l'expliquons-nous à l'entreprise?

"Nos expériences ont montré que cela faisait plus d'argent dans les achats PPV. Nous ne savons pas encore pourquoi et continuerons à enquêter. Voici quelques théories (si vous les avez). En attendant, nous avons proposé de mettre cela en direct (ou peut-être en exécutant un autre test à plus long terme) pour voir s'il fonctionne dans le monde réel ".

1
adrianh