Je suis en train de reconstruire l'intégralité de notre intranet à partir de zéro, principalement parce que la technologie derrière est obsolète et il a été prouvé que beaucoup d'informations sont difficiles à trouver.
Bien que ce soit hors de propos, je me demande quelle serait la quantité optimale d'utilisateurs à utiliser pour les tests qualitatifs et quantitatifs avec une base d'utilisateurs d'environ 1000 utilisateurs?
Existe-t-il une règle générale pour les deux en fonction du nombre total d'utilisateurs que vous avez? ou est-ce simplement dire 5 pour qualitatif et 10 pour quantitatif?
Quelle serait la meilleure approche?
Dans Pourquoi vous avez seulement besoin de tester avec 5 utilisateurs Jakob Nielsen suggère:
Les meilleurs résultats proviennent du test de 5 utilisateurs maximum et de l'exécution d'autant de petits tests que vous pouvez vous le permettre.
Cependant, plutôt que de se concentrer sur le nombre d'utilisateurs, il pourrait être préférable de se concentrer sur le nombre et la qualité des tâches :
Les tâches de test d'utilisabilité sont si essentielles que certaines personnes affirment qu'elles sont encore plus importantes que le nombre de participants que vous utilisez: il semble que combien de tâches les participants essaient, pas le nombre de participants au test, soit le facteur critique pour trouver des problèmes dans un test d'utilisabilité .
Je n'ai pas de référence pour cela, mais je pense que ces chiffres dépendraient de la taille de la base d'utilisateurs.
Pour les tests qualitatifs, vous devez avoir des utilisateurs "typiques". Donc, si vous avez 3 rôles que vos utilisateurs peuvent prendre, vous avez besoin d'au moins 3 utilisateurs - un pour chaque rôle. En réalité, vous en voudriez plus d'un, mais c'est votre minimum absolu.
Pour les tests quantitatifs, vous avez besoin d'une proportion importante de votre base d'utilisateurs. Je ne sais pas quel serait ce nombre, mais si vous prenez votre base d'utilisateurs et 10% comme chiffre, vous aurez besoin de 100 utilisateurs. Cependant, cela peut être irréaliste - il est possible que vous ne puissiez pas gérer autant d'utilisateurs, ou si vous avez une petite base d'utilisateurs, cela produirait un très petit nombre.
Quelque chose d'autre à considérer est où va le résultat de votre rapport d'utilisation. Quelle quantité de travail les personnes en aval de vous peuvent-elles réparer - et quel sera l'effet de ces corrections?
Disons que je fais un test avec quinze personnes. Après les trois premiers, j'ai repéré des problèmes A B C. À la fin des quinze, j'ai également repéré des problèmes D E F G.
Le problème est que l'équipe en aval de moi n'a que le temps de réparer A et B.
Pire encore - une fois que nous avons corrigé A et B, le système a changé, et les prochains problèmes d'utilisation les plus graves pourraient bien ne pas être C-G.
Je regarderais donc le temps de cycle complet de votre développement de produits - et je ferais juste assez de tests d'utilisabilité pour remplir la file d'attente de travail. Plus que cela risque d'être du gaspillage.
D'après mon expérience, faire plus de tests d'utilisabilité avec moins de participants (même un seul) répartis sur tout le processus de développement est beaucoup plus efficace que quelques gros tests.
Pour les tests quantitatifs, il est possible d'être plus explicite sur l'effet de la taille de l'échantillon sur vos résultats, mais le nombre d'utilisateurs dont vous avez besoin dépend des tests ou analyses particuliers que vous envisagez (des exemples pourraient être de déterminer la proportion de participants réussissant une tâche) , estimer le temps moyen d'exécution d'une tâche, comparer deux versions avec un questionnaire comme le SUMI ou le SUS…) Il est donc difficile de donner une règle empirique qui serait utile dans toutes les situations mais il existe des techniques pour connaître la taille de l'échantillon dont vous avez besoin dans une situation donnée.
Maintenant, si vous ne voulez pas passer en revue tous ces problèmes et estimer réellement des choses comme les intervalles de confiance et la puissance statistique, il y a encore deux conclusions importantes à retenir.
La première est que la précision de l'estimation et donc le nombre d'utilisateurs dont vous avez besoin pour atteindre un niveau de précision donné ne dépendent pas de la taille de votre base d'utilisateurs, au moins tant que cette base d'utilisateurs est beaucoup plus grande que votre échantillon de test. La seconde est que plus la taille de l'échantillon est grande, plus l'amélioration que vous pouvez attendre des utilisateurs de test supplémentaires sera faible. Ainsi, passer de 10 à 110 est une énorme amélioration, passer de 1000 à 1100 moins.
C'est pourquoi les sondages d'opinion ont souvent des échantillons d'environ 1000 participants, même lorsque la population d'intérêt comprend plusieurs millions de personnes. En fait, la taille de l'échantillon pour un scrutin préélectoral sera généralement très similaire dans les pays de 5, 80 ou 200 millions d'habitants. Tant que votre échantillon est aléatoire et que la population est beaucoup plus importante, peu importe si vous ne demandez que 1%, 0,1% ou 0,00001% du nombre total d'électeurs.
Ces deux conclusions sont toujours valables pour d'autres choses que les pourcentages: par exemple, des comparaisons entre les notes d'un questionnaire de satisfaction ou des analyses du temps qu'il faut pour terminer une tâche. Si vous voulez aller plus loin, un bon point de départ est le site Web de Jeff Sauro http://www.measuringusability.com/