J'essaie d'évaluer la validité des réponses SUS- je pense que cela s'appelle aussi fiabilité interne ou biais de réponse. Comment est-ce fait pour SUS?
Lors de l'analyse des données d'enquête, vous devez séparer la validité de la fiabilité.
Voici une représentation graphique du concept (de Wikipedia ):
En général, SUS s'est avéré très fiable et il existe un certain soutien solide qu'il produit des conclusions valables [1].
Mais vous êtes probablement plus intéressé à déterminer si les résultats de votre enquête sont valables pour votre problème. Pour répondre à cela, mon conseil est de trouver une autre mesure de convivialité avec laquelle corréler vos résultats (c'est ce qu'on appelle la "validité convergente"). Par exemple, vous pouvez comparer les résultats d'une enquête similaire ou d'une évaluation experte de l'interface avec les scores SUS. Ou vous pouvez comparer le temps de réalisation de la tâche (ou une autre mesure quantitative de la performance) d'un utilisateur avec des scores SUS précédemment rassemblés, s'ils sont corrélés alors SUS a une "validité prédictive", ce qui serait assez convaincant).
Si vous êtes intéressé par la fiabilité, je vous suggère d'utiliser l'alpha de Chronbach. Il s'agit d'une mesure combinée de toutes les corrélations entre les questions et signifie essentiellement dans quelle mesure il est probable que les répondants répondent aux questions de la même manière. Vous pouvez également relancer le test avec les mêmes participants et voir si vous obtenez des réponses similaires.
[1] Bangor, A., Kortum, P. T., Miller, J. T .: Une évaluation empirique de l'échelle d'utilisation du système. Journal international de l'interaction homme-machine. 24, 574--594 (2008)