Que signifie "taille d'échantillon" et "taille d'effet" en termes de test A/B? Quelqu'un peut-il expliquer en termes simples avec un exemple?
Taille de l'effet
Dans les tests A/B, la taille de l'effet est la différence de performance observée entre A et B. Prenez, par exemple, les résultats A/B suivants:
Ainsi, A a un taux de conversion de 10/103 = 9,71% tandis que B a un taux de conversion de 6/97 = 6,19%. Les données suggèrent qu'au cours de nombreuses visites, A aura 9,71/6,19 - 1 = 57% de conversions supplémentaires. Ainsi, la taille de l'effet, comme indiqué par la différence proportionnelle relative, est de 57%. Il existe d'autres mesures de la taille de l'effet, mais la différence proportionnelle relative est l'une des plus utiles et intuitives. Vous pouvez le regarder et dire: "Eh bien, 57%, c'est une assez grande différence." Par exemple, une taille d'effet de 57% implique que vous pouvez vous attendre à 57% de revenus supplémentaires avec A que B, en supposant que la valeur moyenne de chaque conversion reste inchangée. C’est une lourde "augmentation".
Taille de l'échantillon
La taille de l'échantillon est le nombre de visiteurs dans le test A/B, ou 103 + 97 = 200 dans cet exemple. C'est pertinent pour la confiance que vous devriez avoir en ce qui concerne les effets de hasard. Alors que A a surpassé B dans ce test de 200 visites, les utilisateurs ont reçu A ou B par un simple retournement numérique de la pièce (si vous l'avez fait correctement). Compte tenu de cet élément de hasard, il est possible que A se soit avéré justement avoir plus d'utilisateurs qui se seraient convertis qu'ils aient obtenu A ou B. Peut-être qu'il n'y a pas d'effet réel de A-contre-B. Peut-être que A vient d'avoir de la chance.
Intuitivement, nous sentons que plus la taille de l'échantillon est grande, moins A aura de chances de surpasser B (ou vice versa) juste par hasard. Les gens utilisent la taille de l'échantillon pour juger s'ils devraient croire que A est réellement meilleur que B ou rejeter les résultats comme une chance due. Donc, tout le monde aime connaître la taille de l'échantillon.
La taille de l'échantillon est un pot
Cependant, la vérité est que la taille de l'échantillon en soi est presque totalement dénuée de sens. Vous ne pouvez pas regarder un nombre et tirer des conclusions fiables quant à savoir si A-versus-B a un effet réel ou non. Un effet de hasard peut être raisonnablement probable avec un échantillon de 2 000 000. Un effet de hasard peut être extrêmement improbable avec un échantillon de 20.
Il est possible (et routinier en statistiques) de calculer la probabilité de A et B apparaissant comme ils le font dans le test lorsque A-contre-B n'a aucun effet réel. Cette probabilité est la "valeur p". C’est ce que vous voulez vraiment savoir.
La valeur de p pour l'exemple ci-dessus est de 0,439. Si A contre B n'a aucun effet réel, vous avez 43,9% de chances de voir des résultats comme celui-ci. Il devrait être évident que vous ne devriez pas être trop enthousiasmé par la prétendue "supériorité" de A. *
La taille de l'échantillon est un paramètre dans le calcul d'une valeur de p, mais la taille de l'échantillon en elle-même peut être très trompeuse. D'une part, dans les tests A/B typiques, où les taux de conversion sont très bas, un nombre plus élevé de conversions non - n'a pas beaucoup d'importance dans un sens ou dans l'autre. Par exemple, tenez compte des éléments suivants:
La taille de l'effet est inchangée - A est toujours 57% meilleur que B. C'est juste que les taux de conversion sont un dixième de ce qu'ils étaient auparavant (probablement plus réalistes aussi).
Mais, woohoo! 2000 visiteurs! Dix fois la taille de l'échantillon! Mais quelle est la valeur p réelle? 0,456. Fat lotta good la plus grande taille d'échantillon a fait.
La taille de l'effet affecte la valeur de p. Plus la différence entre A et B dans le test est grande, moins le hasard est susceptible de produire le résultat. Je veux dire, bien sûr, A pourrait obtenir un peu plus d'utilisateurs prêts à convertir que B, mais une charge de plus? Cela mine la crédibilité. Un ne peut avoir que de la chance. Considérons une taille d'échantillon de 200, mais où A souffle vraiment B loin:
La différence proportionnelle relative est de 282% - Le taux de conversion de A est presque - trois fois B. Mais plus important encore (har har *), la valeur de p est de 0,0165. Il est vraiment peu plausible que A-contre-B n'ait aucun effet réel. Je suis convaincu que A est vraiment mieux.
Prise sans vergogne
Pour plus d'informations sur les statistiques et la convivialité, voir mon série de messages . Stat 101 est un aperçu non mathématique des concepts. Stat 2 couvre les tests A/B.
* Pour interpréter les valeurs de p, je recommande quelque chose de proche de la tradition scientifique de la "signification statistique": une valeur de p de 0,05 ou moins devrait vous convaincre que A-contre-B est un effet réel. IMO, des valeurs de p autour de 0,10 devraient vous faire suspecter qu'il n'y a pas d'effet réel, mais vous ne devez pas nécessairement rejeter les résultats, surtout si la taille de l'effet est grande. Tout résultat avec une valeur de p de 0,20 ou plus ne doit pas être pris au sérieux quelle que soit la taille de l'effet. S'il y a une grande taille d'effet, dites-leur de continuer à exécuter le test A/B pour voir s'il se maintient et si la valeur de p baisse. BTW, j'ai utilisé le test exact de Fisher pour calculer les valeurs de p dans cette réponse, un bon choix pour un test A/B.
En termes (très) simples:
Taille de l'échantillon - le nombre de visiteurs (participants) inclus dans le test A/B
Taille de l'effet - la différence entre A et B
Un exemple (très) simple (résultats des tests A/B):
Taille totale de l'échantillon du test A/B - 100 000 visiteurs = Variation A + Variation B.
Taille de l'effet du test A/B - Le taux de conversion de la variation B (2,80%) est 40,00% plus élevé que le taux de conversion de la variation A (2,00%).
Bien sûr, il y a beaucoup plus. Bons articles sur la mise en route des tests A/B:
En bref:
Taille de l'échantillon: parle du nombre de participants, ce qui donne un bon résultat lors du test. Avoir trop de participants ne vous donne pas les meilleurs résultats ou ne vous aide pas à trouver tous les défauts. La plupart des problèmes seront découverts par les 5 utilisateurs. Si vous impliquez quelques utilisateurs supplémentaires, ils peuvent ou non trouver de nouveaux problèmes, mais ils sont susceptibles de trouver les mêmes problèmes. Mais, le "nombre" d'utilisateurs change en fonction du type de recherche que vous effectuez.
Vous pouvez en savoir plus sur: https://www.nngroup.com/articles/how-many-test-users/http://www.humanfactors.com/newsletters/how_many_test_participants .asp
Taille de l'effet: vous pouvez en savoir plus sur: http://www.measuringu.com/blog/effect-sizes.php