Je suis très nouveau dans tout type de test de site Web (veuillez être gentil!), Et j'ai des questions (principalement pour ma propre compréhension) sur le test A/B de la page d'accueil d'un site de commerce électronique.
L'entreprise pour laquelle je travaille souhaite exécuter simultanément deux tests A/B sur la page d'accueil du site:
Test 1
Test 2
Pour les deux tests, le plan consiste à surveiller le taux de conversion pour les quatre groupes différents. Bien que cela ne m'ait pas été dit, je suppose que l'objectif du test est de décider si l'affichage de produits ciblés sur le niveau d'expérience de l'utilisateur dans le passe-temps améliorera la conversion globale.
Questions pour ma propre compréhension:
La "distance" sur le chemin d'achat entre la page d'accueil et le résultat que nous mesurons (une commande) affecte-t-elle la validité du test?
Y aurait-il au moins une cohérence générale dans chaque test (et non entre les deux tests) dans la tarification et les offres associées à chaque test? Par exemple, que se passe-t-il si le test 2 a un groupe témoin de produits qui fait en moyenne un prix de 50 $ et un groupe test de produits qui fait en moyenne un prix de 1000 $ - cela ne fera-t-il pas remonter les résultats au groupe témoin de produits? Un autre exemple: que se passe-t-il si le groupe de produits de test de Test 1 est dominé par des skus auxquels une offre de livraison gratuite est attachée alors que le jeu de contrôle du test 1 ne l'est pas?
Ma compréhension très rudimentaire des tests est que vous n'atteindrez une signification statistique que lorsque vous aurez 100 commandes (un responsable du marketing de l'industrie des catalogues imprimés m'a dit cela et n'avait pas énormément d'expérience dans l'industrie en ligne - ils ont dit c'était une compréhension standard en marketing direct).
Si tel est le cas, pensez-vous que le test a atteint une signification statistique lorsqu'il y a eu un total de 100 commandes, lorsqu'il y a eu un total de 100 commandes de produits affichés sur la page d'accueil pour les différents groupes, lorsque chaque groupe a passé 100 commandes, ou lorsque chaque produit a été commandé 100 fois?
Je suppose qu'au moins certaines de mes questions reflètent mon ignorance, mais j'espère que quelqu'un pourra m'aider à comprendre.
Merci d'avance! Toute aide que n'importe qui peut offrir est très appréciée!
Oui. Vous devez tout maintenir aussi constant que possible, sauf une variable. Si vous souhaitez décider si les utilisateurs intermédiaires sont plus susceptibles d'acheter des articles intermédiaires, vous devez maintenir le prix constant, ou aussi constant que possible. Si vous deviez exécuter le test défectueux ci-dessus et que votre nouvelle version réussit, la seule chose que vous pouvez retirer de votre test est:
Cette règle des "100 articles" est totalement, horriblement erronée. Il y a beaucoup de statistiques derrière la détermination de la signification, mais vous pouvez utiliser un calculateur de signification pour simplifier considérablement votre travail, comme celui-ci: Calculatrice de test fractionné ABBA punaise . Il y a beaucoup d'explications dans la page liée, mais, fondamentalement, votre valeur P déterminera si votre test est significatif ou non et vous rechercherez une valeur P probablement de 0,05 ou inférieure. L'intervalle de confiance est complètement séparé - vous choisissez l'intervalle (la valeur par défaut est 95%) - et l'intervalle de confiance est utilisé pour calculer l'écart de confiance que vous trouvez dans la dernière colonne des résultats. En tout cas, 100 succès vont certainement être beaucoup trop faibles.
Je vais également inclure un petit conseil. Parfois, vos tests convergent vers la signification plus rapidement qu'ils ne le devraient vraiment. N'oubliez pas que tout est toujours statistique. Résistez à l'envie d'arrêter votre test dès que votre valeur P descend en dessous de 0,05. Laissez-le fonctionner un peu plus longtemps.