Les tests simultanés sur différentes étapes d'un formulaire à plusieurs étapes sont-ils statistiquement indépendants?

Question

Je veux faire des tests et des apprentissages sur un formulaire en plusieurs étapes en utilisant une infrastructure qui semble prendre en charge la conduite et la notification des tests A/B/n.

Si mon site avait deux formulaires différents, je pouvais simultanément exécuter des tests A/B sur chaque formulaire et calculer la signification statistique de chaque test de manière totalement indépendante de l'autre.

D'un autre côté, si je testais simultanément deux variables (discrètes) sur la même forme, contre le même facteur de réussite, je conduirais un test multivarié et aurais besoin de plus grands nombres pour atteindre un niveau de confiance approprié dans mes résultats - en supposant que le système ne fonctionne pas 'fais pas ça pour moi, j'ai l'intention d'utiliser un test du chi carré.

Mais que faire si j'ai un formulaire de deux pages et que je teste une variable sur la page 1 et une autre sur la page 2? Puis-je simplement dire que chaque test a un facteur de réussite distinct (achèvement de la page 1 contre achèvement de la page 2), auquel cas je peux le traiter comme deux tests A/B parallèles, ou serait-il plus sûr de dire qu'ils ont tous les deux les mêmes critères de réussite ultimes (achèvement de la page finale, 2) pour qu'ils soient traités comme un test multivarié?

Michael Zuschlag · Accepted Answer

Oui, les performances sur la page 2 peuvent dépendre de la condition de test de la page 1, mais les analyser en tant que tests séparés n'est pas pire que la plupart des tests A-B. Nous effectuons une conception itérative où nous effectuons un test A-B sur la page 1, implémentons le changement, puis nous effectuons un test A-B sur la page 2. La seule différence est que vous effectuez les deux tests simultanément plutôt qu'en série. Cela ne change pas l'hypothèse sous-jacente selon laquelle les performances de la page 2 sont indépendantes de la conception de la page 1, et cela ne modifie pas sensiblement vos statistiques (vous pourriez faire valoir qu'il y a une petite augmentation du taux d'erreur familial, mais c'est tout qui me vient à l’esprit). Les statistiques sont valables tant que vous exécutez chaque modification en tant que tests séparés et n'agissez pas comme si vous doubliez votre nombre d'utilisateurs, car vous avez deux points de données par utilisateur.

D'ailleurs, les statistiques seraient valides même si vous testiez deux modifications sur la même page. Encore une fois, ce n'est pas sensiblement pire que de tester en série deux modifications pour la même page, ce qui est courant dans les tests itératifs A-B.

La dépendance potentielle des performances de la page 2 à la conception de la page 1 n'est pas un problème statistique. Au lieu de cela, le risque est que vous ne preniez pas en compte toutes les variables nécessaires pour obtenir la meilleure conception. En principe, une conception itérative avec des tests A-B peut aboutir à une conception optimisée à un maximum local. La même chose peut se produire avec une conception itérative qui utilise des tests d'utilisabilité, mais les tests d'utilisabilité signifient généralement que vous disposez de données qualitatives qui fournissent un aperçu de la dépendance.

En pratique, je ne m'attendrais à ce que la dépendance potentielle soit un problème qu'en cas d'incohérence. Par exemple, supposons que vous testiez sur la page 1 s'il faut indiquer les champs verrouillés avec un arrière-plan gris ou une bordure rouge, et vous trouverez peut-être que la bordure rouge fonctionne mieux. À la page 2, vous testez s'il faut indiquer les champs obligatoires avec un astérisque ou une bordure rouge, et vous pouvez trouver en moyenne une bordure rouge fonctionne mieux. Cependant, si vous regardiez les utilisateurs qui avaient des bordures rouges pour les champs de verrouillage sur la page 1 et des bordures rouges pour les champs obligatoires sur la page 2, vous verriez qu'ils effectuent le pire de toutes les combinaisons en raison de l'utilisation incohérente des bordures rouges . Que vous effectuiez les deux tests A-B séparés en parallèle ou en série, vous ne découvrirez jamais que la meilleure performance globale consiste à utiliser un fond gris pour Verrouillé et une bordure rouge pour Requis.

Dans votre cas, je ne pense pas que vous ayez besoin de décider à l'avance si vous souhaitez l'exécuter en tant que test omnibus unique ou deux tests A-B parallèles. Exécutez le test assez longtemps pour obtenir l'échantillon dont vous avez besoin pour des tests AB séparés et exécutez les analyses, mais construisez également votre tableau de contingence 4x2 1A2A-1A2B-1B2A-1B2B et consultez les statistiques descriptives pour voir s'il y a des signes de dépendance qui aurait un impact sur votre décision de conception. Si tel est le cas, laissez le test s'exécuter plus longtemps pour collecter plus de données, puis effectuez les statistiques inférentielles. C’est quelque chose que vous ne pourriez pas faire avec les tests itératifs A-B.