Page d'accueil des tests A / B d'un site de commerce électronique

Question

Je suis très nouveau dans tout type de test de site Web (veuillez être gentil!), Et j'ai des questions (principalement pour ma propre compréhension) sur le test A/B de la page d'accueil d'un site de commerce électronique.

L'entreprise pour laquelle je travaille souhaite exécuter simultanément deux tests A/B sur la page d'accueil du site:

Test 1

Destiné aux clients qui, selon nous (en fonction des habitudes de dépenses), sont des débutants dans le passe-temps pour lequel nos produits sont utilisés
50% de ces clients verront un groupe témoin de produits
50% de ces clients verront un groupe de produits destiné aux débutants

Test 2

Destiné aux clients qui, selon nos habitudes de dépenses, sont des participants intermédiaires à avancés au hobby pour lequel nos produits sont utilisés
50% de ces clients verront le même groupe témoin de produits spécifié ci-dessus pour le test 1 (bien que je pense que nous les traiterions comme un groupe distinct)
50% de ces clients verront un groupe de produits destinés aux utilisateurs intermédiaires à avancés

Pour les deux tests, le plan consiste à surveiller le taux de conversion pour les quatre groupes différents. Bien que cela ne m'ait pas été dit, je suppose que l'objectif du test est de décider si l'affichage de produits ciblés sur le niveau d'expérience de l'utilisateur dans le passe-temps améliorera la conversion globale.

Questions pour ma propre compréhension:

La "distance" sur le chemin d'achat entre la page d'accueil et le résultat que nous mesurons (une commande) affecte-t-elle la validité du test?
Y aurait-il au moins une cohérence générale dans chaque test (et non entre les deux tests) dans la tarification et les offres associées à chaque test? Par exemple, que se passe-t-il si le test 2 a un groupe témoin de produits qui fait en moyenne un prix de 50 $ et un groupe test de produits qui fait en moyenne un prix de 1000 $ - cela ne fera-t-il pas remonter les résultats au groupe témoin de produits? Un autre exemple: que se passe-t-il si le groupe de produits de test de Test 1 est dominé par des skus auxquels une offre de livraison gratuite est attachée alors que le jeu de contrôle du test 1 ne l'est pas?
Ma compréhension très rudimentaire des tests est que vous n'atteindrez une signification statistique que lorsque vous aurez 100 commandes (un responsable du marketing de l'industrie des catalogues imprimés m'a dit cela et n'avait pas énormément d'expérience dans l'industrie en ligne - ils ont dit c'était une compréhension standard en marketing direct).

Si tel est le cas, pensez-vous que le test a atteint une signification statistique lorsqu'il y a eu un total de 100 commandes, lorsqu'il y a eu un total de 100 commandes de produits affichés sur la page d'accueil pour les différents groupes, lorsque chaque groupe a passé 100 commandes, ou lorsque chaque produit a été commandé 100 fois?

Je suppose qu'au moins certaines de mes questions reflètent mon ignorance, mais j'espère que quelqu'un pourra m'aider à comprendre.

Merci d'avance! Toute aide que n'importe qui peut offrir est très appréciée!

Jeremy T · Answer

Non, peu importe le nombre d'étapes entre les deux, car vous testez deux univers alternatifs où la seule différence est le test. Si vous effectuez un test entre des pommes et des oranges et découvrez que cela fait que les gens achètent des poires, vous pouvez conclure que les résultats sont vrais ou que vous n'avez pas conçu votre test correctement ... ce qui nous amène à - Je vais mettre à jour ma réponse ici pour dire qu'il y a des cas où une fuite dans le domaine temporel va gâcher vos résultats. Si, par exemple, vous avez un panier qui permet aux gens de stocker des articles entre les sessions pour les acheter plus tard, il est possible que certains de vos résultats soient perturbés par le fait que les gens reviennent et achètent des articles qu'ils avaient décidé d'acheter auparavant.
Oui. Vous devez tout maintenir aussi constant que possible, sauf une variable. Si vous souhaitez décider si les utilisateurs intermédiaires sont plus susceptibles d'acheter des articles intermédiaires, vous devez maintenir le prix constant, ou aussi constant que possible. Si vous deviez exécuter le test défectueux ci-dessus et que votre nouvelle version réussit, la seule chose que vous pouvez retirer de votre test est:
- les utilisateurs intermédiaires aiment les articles intermédiaires, ou
- ils sont plus/moins susceptibles d'acheter des articles plus/moins chers, ou
- tous les deux.
Cette règle des "100 articles" est totalement, horriblement erronée. Il y a beaucoup de statistiques derrière la détermination de la signification, mais vous pouvez utiliser un calculateur de signification pour simplifier considérablement votre travail, comme celui-ci: Calculatrice de test fractionné ABBA punaise . Il y a beaucoup d'explications dans la page liée, mais, fondamentalement, votre valeur P déterminera si votre test est significatif ou non et vous rechercherez une valeur P probablement de 0,05 ou inférieure. L'intervalle de confiance est complètement séparé - vous choisissez l'intervalle (la valeur par défaut est 95%) - et l'intervalle de confiance est utilisé pour calculer l'écart de confiance que vous trouvez dans la dernière colonne des résultats. En tout cas, 100 succès vont certainement être beaucoup trop faibles.

Je vais également inclure un petit conseil. Parfois, vos tests convergent vers la signification plus rapidement qu'ils ne le devraient vraiment. N'oubliez pas que tout est toujours statistique. Résistez à l'envie d'arrêter votre test dès que votre valeur P descend en dessous de 0,05. Laissez-le fonctionner un peu plus longtemps.