web-dev-qa-db-fra.com

Existe-t-il des recherches sur l'atténuation des effets de l'utilisation d'un groupe d'utilisateurs non représentatifs sur la mesure de l'utilisabilité perçue?

Mon client exécute une série de démonstrations de fournisseurs où il souhaite que le personnel mesure la convivialité perçue du système (SUS et SEQ).

À l'origine, nous avions demandé un groupe d'évaluateurs cohérent, mais hélas, en raison d'un "dysfonctionnement de la planification", cela n'est pas possible.

Des suggestions sur la façon dont je peux atténuer le risque?

4
Matt Goddard

Au contraire, toutes les recherches ont souligné combien il est important d'utiliser le groupe d'utilisateurs réel dans votre test et non l'entrepreneur ou la direction.

Malgré cela, je pense que vos études prévues sont meilleures que rien. Chaque spécialiste de l'utilisabilité a une sorte de conseil "test rapide et sale" ou "faites-le vous-même". Et ces conseils incluent généralement une personne choisie au hasard dans la rue.

Vous devez simplement être conscient de ce biais lorsque vous analysez vos résultats.

Pour valider vos résultats et comparer le résultat avec le groupe réel d'utilisateurs, vous pouvez choisir un petit échantillon et effectuer une analyse de corrélation.


Mise à jour

Si vous pouviez obtenir certains données sur votre groupe d'utilisateurs réel, vous pouvez calculer la corrélation par exemple. Exceller:

Les cols B et C sont les résultats moyens du SUS. Les colonnes D et E sont les mesures comparables (c'est-à-dire pour la question 1,3,5,7,9: D = B-1 et E = C-1, et pour la question 2,4,6,8,10 D = 5 -B et E = 5-C). La formule de corrélation en C14 est probablement "= CORRELATION (D2: D11; E2: E11)" (j'ai l'édition norvégienne MS Office)

Une corrélation élevée indique que vous obtiendriez probablement le même résultat dans les deux groupes.

enter image description here

2

S'appuyant sur la réponse de Jørn: les analyses statistiques peuvent vous aider à comparer un petit groupe d'utilisateurs de haute qualité avec les autres. Les tests les plus appropriés dépendront de la taille de votre échantillon et des hypothèses que vous pouvez faire en toute sécurité sur la nature de vos données (telles que la distribution normale, les variances égales, etc.).

Pour comparer les scores de deux groupes sur le SUS, je commencerais par les scores totaux (sur l'échelle 0-100). Vérifiez si les scores sont approximativement normalement distribués (soit visuellement dans l'histogramme, soit avec un test statistique tel que Kolmogorov-Smirnov ou Shapiro-Wilk), puis calculez la moyenne et les écarts-types pour les deux groupes. Votre hypothèse nulle est que les scores sont les mêmes pour les deux groupes et que les différences de scores entre les deux groupes peuvent être attribuées au hasard. Si vous pouvez supposer des variances égales, vous pouvez simplement utiliser un test t d'échantillon indépendant avec des tailles d'échantillon inégales , sinon utilisez la variante pour des variances inégales test t de Welch . Vous pouvez le faire avec n'importe quel tableur ou programme de statistiques, ou utiliser l'une des calculatrices en ligne telles que celle-ci du graphe .

Exemple de calcul: groupe A (10 utilisateurs réels): moyenne 68, écart type 17, n = 10 groupe B (40 personnes aléatoires): moyenne 76, écart type 19, n = 40

Le test t non apparié donne une valeur de p de 0,23 (non significative), de sorte que la différence entre les moyennes peut être attribuée au hasard.

Dans le cas où vos résultats montrent qu'il n'y a pas de différence entre les deux groupes, je dirais qu'il est prudent de supposer que vos données donnent une représentation précise de ce que les vrais utilisateurs diraient et vous pouvez combiner les deux groupes pour une analyse plus approfondie.

Sinon, essayez de masser un peu vos données. Le SUS est connu pour mesurer à la fois l'aptitude à l'apprentissage (dans les éléments 4 et 8) l'utilisabilité (dans le reste des éléments) (selon recherche ). Essayez donc de laisser de côté les éléments 4 et 8 et exécutez vos tests pour la dimension d'utilisabilité uniquement.


Tout ce que j'ai écrit ci-dessus est pour quand vous n'avez pas de données supplémentaires en plus des résultats des tests. Si vous êtes en mesure de collecter des données démographiques (même des informations de base sur le numéro de session peuvent être utiles), vous avez beaucoup plus de possibilités.

2
Marielle