web-dev-qa-db-fra.com

Mesure de l'utilisabilité: les attributs d'ergonomie de Nielsen par rapport à SUS

D'après mes recherches, le SUS semble être la norme de l'industrie en ce qui concerne la mesure de l'utilisabilité par le biais d'un questionnaire. Il existe bien sûr de nombreux autres instruments.

Les attributs d'utilisation de Nielsen sont largement reconnus. D'après ce que j'ai vu, les questionnaires et les études utilisent rarement directement les attributs/heuristiques de Nielsen.

Alors pourquoi ne pas simplement créer un questionnaire avec une échelle de likert et demander directement à l'utilisateur les cinq attributs ou les dix heuristiques? Pourquoi les gens préfèrent-ils utiliser le SUS à la place?

3
reggie

Parce que SUS fonctionne très bien et a été examiné de près par les praticiens depuis plus de 25 ans.

Les SUS questions n'ont pas été retirées d'un chapeau. Elles étaient basées sur la recherche. Pour citer quelque peu de façon détaillée de l'article original de Brooke :

SUS est une échelle de Likert. On suppose souvent qu'une échelle de Likert est simplement basée sur des questions à choix forcé, où une déclaration est faite et le répondant indique ensuite le degré d'accord ou de désaccord avec l'énoncé sur une échelle de 5 (ou 7) points. Cependant, la construction d'une échelle de Likert est un peu plus subtile que cela. Alors que les échelles de Likert sont présentées sous cette forme, les déclarations avec lesquelles le répondant indique son accord et son désaccord doivent être soigneusement sélectionnées.

La technique utilisée pour sélectionner les éléments sur une échelle de Likert consiste à identifier des exemples de choses qui conduisent à des expressions extrêmes de l'attitude capturée. Par exemple, si l'on s'intéresse aux attitudes à l'égard des crimes et des délits, on peut utiliser les meurtres en série et les délits de stationnement comme exemples des extrêmes du spectre. Une fois ces exemples sélectionnés, un échantillon de personnes interrogées est invité à attribuer une note à ces exemples dans un large éventail d'éléments potentiels du questionnaire. Par exemple, les personnes interrogées pourraient être invitées à répondre à des déclarations telles que "la pendaison est trop bonne pour eux" ou "je peux m'imaginer faire quelque chose comme ça".

Étant donné un grand nombre de déclarations de ce type, il y en aura généralement où il y aura beaucoup d'accord entre les répondants. De plus, certains de ceux-ci seront ceux où les déclarations provoquent des déclarations extrêmes d'accord ou de désaccord entre tous les répondants. Ce sont ces dernières déclarations que l'on essaie d'identifier pour inclusion dans une échelle de Likert, car nous espérons que, si nous avons sélectionné des exemples appropriés, il y aurait un accord général sur les attitudes extrêmes à leur égard. Les éléments où il y a ambiguïté ne sont pas de bons discriminateurs d'attitudes. Par exemple, alors que l'on espère qu'il y aurait un désaccord général et extrême sur le fait que "la pendaison est trop bonne" pour ceux qui commettent des délits de stationnement, il pourrait bien y avoir moins d'accord sur l'application de cette déclaration aux tueurs en série, car les opinions divergent largement sur l'éthique et efficacité de la peine capitale.

SUS a été construit en utilisant cette technique. Un pool de 50 éléments potentiels du questionnaire a été constitué. Deux exemples de systèmes logiciels ont ensuite été sélectionnés (l'un un outil linguistique destiné aux utilisateurs finaux, l'autre un outil pour les programmeurs de systèmes) sur la base d'un accord général selon lequel l'un était "vraiment facile à utiliser" et l'autre était presque impossible à utiliser, même pour les utilisateurs hautement qualifiés. 20 personnes du groupe d'ingénierie des systèmes de bureau, avec des professions allant du secrétaire au programmeur de systèmes, ont ensuite évalué les deux systèmes par rapport aux 50 éléments potentiels du questionnaire sur une échelle de 5 points allant de "fortement d'accord" à "fortement en désaccord".

Les éléments conduisant aux réponses les plus extrêmes du pool d'origine ont ensuite été sélectionnés. Il y avait des intercorrélations très étroites entre tous les éléments sélectionnés (± 0,7 à ± 0,9). En outre, des éléments ont été sélectionnés de sorte que la réponse commune à la moitié d'entre eux était un accord fort et, à l'autre moitié, un fort désaccord. Cela a été fait afin d'éviter les biais de réponse causés par les répondants qui n'ont pas à penser à chaque énoncé; en alternant les éléments positifs et négatifs, le répondant doit lire chaque énoncé et faire un effort pour penser s'il est d'accord ou non.

Brooke's article rétrospectif 2013 sur le SUS vaut également la peine d'être lu.

Je soupçonne fortement que poser des questions populaires sur les cinq attributs ou les dix heuristiques ne donnera pas de résultats utiles. Parce que les humains. Il est extrêmement difficile de trouver des questions qui ne biaisent pas les gens dans certaines directions ou qui sont interprétées par différentes personnes de différentes manières.

Si vous voulez un peu plus d'informations sur des facteurs spécifiques, vous pourriez être intéressé par certains des travaux les plus récents que James Lewis et Jeff Sauro ont fait sur une analyse factorielle du SUS pourraient être intéressants.

2
adrianh

Je suppose que les gens aiment le SUS parce que c'est quelque chose de bien connu et standard, dans le sens où vous pouvez à peu près l'utiliser tel quel ou faire de légères modifications et l'adapter à votre SUS a la caractéristique d'être générique et peut être appliqué à de nombreux types de produits et services, il est donc bon pour les comparaisons entre différentes industries ou même au sein d'une même industrie.

Cependant, je pense que les attributs d'utilisation de Nielsen, comme la plupart des tentatives pour évaluer la convivialité à partir d'une analyse systématique et qualitative, ne sont pas si facilement adaptables et nécessitent un peu plus de réflexion en termes d'application dans un questionnaire ainsi que d'analyse de la résultats.

0
Michael Lai