Lignes directrices pour l'arrêt précoce d'un test A / B (ou MVT) en raison de mesures négatives

Question

Un test que j'ai effectué récemment a atteint sa signification dans les 24 heures, montrant une énorme baisse de conversion. Comme le site sur lequel je travaille appartient à une grande entreprise avec des sources de revenus élevées, j'ai dû suspendre le test pour éviter toute perte de revenus.

Après avoir fait l'analyse, il s'est avéré que Split C contenait un petit bug qui était suffisant pour abaisser tous les résultats. J'ai recommencé le test après la correction ... le même problème s'est produit. 24 heures se sont écoulées et le même effet négatif a été observé.

Ma tâche consiste maintenant à mettre en place des directives d'arrêt pour nous aider à décider si un test doit être arrêté à mi-chemin pour éviter un effet néfaste sur le site Web - y a-t-il des mesures standard à utiliser dans ce cas, par exemple si CR = -10%, arrêtez le test. Ou est-ce purement circonstanciel?

Tout conseil à ce sujet serait apprécié.

Emīls Vēveris · Accepted Answer

Pour commencer, un processus d'assurance qualité (AQ) rigoureux est nécessaire avant de lancer un test. Votre situation est assez courante - trouvez la variante perdante uniquement parce qu'elle contient un bug.

Vous devez donc vérifier si la nouvelle variante fonctionne correctement sur tous les navigateurs et appareils. Non seulement cela, mais aussi si tous les objectifs sont correctement définis dans votre outil de test (il peut souvent y avoir un décalage - l'outil n'enregistre pas toutes les conversions/revenus en raison d'une configuration incorrecte). Quelques listes de contrôle que vous pouvez utiliser:

Deuxièmement, apprenez les statistiques de base derrière les tests A/B. Ceci est crucial car les données et les statistiques sont délicates et peuvent amener des personnes non formées à voir et à croire des choses qui ne sont pas là (biais de confirmation).

Prenez votre situation par exemple. Votre client panique en voyant que la nouvelle variante ne perd qu'après 24h. Il est convaincu que la nouvelle variante leur coûte de l'argent mais en réalité, il est trop tôt pour tirer des conclusions. Après quelques jours, le résultat peut être radicalement différent car le taux de conversion et les revenus par visiteur fluctuent fortement chaque jour (vérifiez vos analyses, vous verrez probablement un nombre différent chaque jour), ce qui signifie que quel que soit le résultat que vous voyez après 24h, il y a il y a de fortes chances que ce soit juste aléatoire.

Quelques bons points de départ:

Troisièmement, il existe des directives d'arrêt de base que vous pouvez suivre , voici mon approche typique (une version simplifiée):

Exécutez le test pendant au moins 7 jours, une semaine complète ou plus précisément un cycle commercial complet (certains produits plus chers ont des cycles d'achat plus longs - un client peut prendre quelques semaines pour prendre une décision d'achat)

Après les 7 jours:

Si la variante perd, arrêtez le test (et passez au test suivant)
Si la variante n'est pas concluante, le résultat n'a pas atteint de différence statistiquement significative, arrêtez le test (et passez au test suivant)
Si la variante est un gagnant statistiquement significatif, exécutez-le pendant 7 jours supplémentaires, juste pour être sûr.

Après 14 jours:

Si la variante est toujours un gagnant statistiquement significatif, arrêtez le test et implémentez la variation (et passez au test suivant)

Mais je vous suggère fortement de comprendre le contexte (pourquoi) avant de les appliquer (ce n'est pas pour tout le monde), en bref:

Le timing est important - comme je l'ai mentionné ci-dessus, votre taux de conversion fluctue tous les jours, mais il est très probable qu'il suit une tendance (par exemple, les conversions sont plus élevées le week-end), de sorte que le résultat après 24h est probablement juste aléatoire, mais après un cycle économique complet, c'est plus crédible .
La signification statistique n'est pas une règle d'arrêt - de loin la plus grande erreur commise par les entreprises, simplement parce que votre outil de test dit qu'il y a une différence statistiquement significative ne signifie pas qu'il y a vraiment une différence. C'est juste une formule et avec les bons nombres (comme dans votre cas) vous pouvez l'atteindre rapidement mais cela pourrait être imaginaire .
Les tests a/b ponctuels ne sont pas très utiles - car les tests a/b sont imprévisibles et vous rencontrerez de nombreux échecs. Par conséquent, avec un programme et une stratégie de test appropriés, vous pouvez obtenir des gains plus importants que des ratés et ainsi vous assurer de gagner réellement à long terme.
Vous faites cela pour prendre une décision commerciale, pas pour mener des recherches scientifiques - il y aura une limite à la précision et à l'exactitude de vos résultats (même si tout semble être un point) et à ce que vous pouvez apprendre de chaque test. Chaque résultat n'est qu'une prédiction après tout (pas une garantie). Vous pouvez certainement améliorer la précision avec des méthodes plus sophistiquées, mais le plus souvent, cette sophistication peut ne pas valoir les coûts supplémentaires (voulez-vous apprendre les vérités absolues ou simplement gagner plus d'argent?)

Voici quelques informations plus détaillées:

Mais plus important encore, tout dépend de votre stratégie de test A/B et des particularités et circonstances commerciales de votre client .

Dans l'ensemble, il n'y a vraiment pas de solution unique et de directives.

Vous devez savoir si vous disposez réellement des tailles d'échantillon nécessaires ou des niveaux de risque que votre entreprise/client est prêt à accepter si vous avez d'énormes volumes de trafic et de transactions.

Et quel est le but - voulez-vous savoir si certains changements améliorent votre expérience utilisateur ou souhaitez simplement améliorer la conversion et les revenus?

Tester au hasard diverses choses (ou même les meilleures pratiques de conception) ne vous mènera pas très loin, vous devez donc avoir une stratégie claire en place.

Mais ne vous inquiétez pas - les tests A/B sont super durs, même les pros les plus expérimentés créent souvent des variantes perdantes, cela fait partie du processus:

RobC · Answer

Nous arrêtons généralement les tests dès qu'ils atteignent une signification statistique, soit environ 5000 clics pour chaque variante de notre plate-forme.

De nombreux outils de test A/B utilisent des balises asynchrones, ce qui peut augmenter les temps de chargement. Dès que nous voyons un résultat clair, nous clôturons le test.