Je veux savoir comment vais-je définir un score de coupure dans une échelle de Likert. J'utiliserai le système de 3 points: d'accord, indécis et en désaccord. J'ai googlé et lu que je dois trouver la moyenne, la variance et le sd. Mais je n'ai pas trouvé ce qu'il fallait faire ensuite avec eux. Merci!
Il semble que vous ayez deux problèmes. La première consiste à comprendre ce que signifient réellement les scores de votre questionnaire (à quel point est-ce que la valeur est de 0,6?) Et la seconde est de savoir comment attribuer des seuils aux scores pour décider de manière cohérente d'une ligne de conduite (à quel score devrais-je décider que la conception est prête pour la production?).
À titre d'exemple, je suppose que le questionnaire mesure la satisfaction des utilisateurs à l'égard d'un site Web et que vous souhaitez déterminer si un site Web est "acceptable" ou non. Supposons qu'il comporte cinq éléments (chacun avec votre échelle de 3 points notée 1 = d'accord, 0 = neutre, - 1 = en désaccord) et nous allons faire la moyenne des éléments pour obtenir les scores globaux.
Donner du sens aux scores
Les questionnaires Likert ont des valeurs de score essentiellement arbitraires, donc pour vraiment comprendre à quel point un nombre est bon, vous devez le relier à quelque chose. Voici quelques options:
Contenu de la question
Étudiez la signification sémantique de vos éléments Likert et, pour un score donné, demandez-vous ce que la proportion équivalente de "d'accord" et de "désaccord" signifie pour le site Web. Disons que vous avez un score moyen de -0,2. Cela équivaut à ce que vos utilisateurs soient d'accord avec deux éléments et en désaccord avec trois. Si chaque élément représente sémantiquement une opinion juste assez bonne du site Web (par exemple, "je serais prêt à utiliser à nouveau ce site Web si j'avais besoin de ce type d'informations"), alors être en désaccord avec la plupart des éléments suggère en moyenne mauvaise performance. Une bonne performance serait une sorte de chiffre positif. Si, d'un autre côté, chaque article représente une opinion exceptionnelle (par exemple, "C'est le site le plus génial de l'univers"), alors -0,2 n'est pas trop mal - jusqu'à deux "encours" sur cinq est en fait assez bien.
Normes
Demandez à un groupe d'utilisateurs d'utiliser le questionnaire pour évaluer un large échantillon aléatoire de sites Web et d'utiliser ces données pour comparer où se situe un score donné par rapport aux autres. Par exemple, si vous avez des notes pour 200 sites (pas un nombre déraisonnable) et que vous trouvez qu'un score de -0,2 est supérieur aux scores de 62 sites de votre échantillon, alors -0,2 correspond au 62/200 * 100 = 31e centile. Assez mauvais: plus des deux tiers des sites sont meilleurs. Et avez-vous vu à quoi ressemble le site Web moyen?
Vous mentionnez la moyenne et l'écart type. Vous n'avez pas nécessairement besoin de la moyenne et de l'écart-type de l'échantillon de sites pour utiliser les normes. Il suffit de regarder où se situe un score parmi les autres. La moyenne et l'écart-type peuvent être utilisés pour calculer les centiles à partir des scores standard. Le score standard (z) est
z = (L - M)/S
Où L est le score moyen du questionnaire d'un site Web (provenant d'un échantillon d'utilisateurs identique ou différent), M est le score moyen du questionnaire de l'échantillon de sites et S est l'écart-type des scores du questionnaire de l'échantillon des sites (vous pas besoin de la variance). Avec un score standard, vous pouvez estimer le centile en utilisant une distribution normale. La façon la plus simple de le faire est de connecter z à la fonction NORMSDIST () d'Excel.
L'utilisation de scores standard n'est utile que lorsque vous ne disposez pas d'un grand échantillon de sites Web, de sorte que le simple fait de chercher où se situe un score dans l'échantillon est trop granulaire (par exemple, si vous n'avez qu'un échantillon de 10, cela ne peut être précis que à 10 points de centile). Cependant, l'utilisation de scores standard suppose que vos scores sont normalement distribués. Peut-être pas. Et même s'ils le sont, vous n'obtiendrez pas une estimation très précise du site Web moyen à partir d'un petit échantillon, alors ne vous embêtez même pas.
Corrèle
Demandez aux utilisateurs d'évaluer un groupe de sites au hasard avec le questionnaire et prenez également d'autres mesures de l'utilisabilité des sites (par exemple, délai de réalisation, nombre d'erreurs utilisateur, conversion ou non, nombre de réponses correctes aux questions qui nécessitent que l'utilisateur trouve le bon informations sur le site web). Corréler les scores du questionnaire avec les autres mesures. Pour chaque mesure avec une corrélation élevée (je dirais un coefficient de corrélation de Pearson d'au moins 0,7, mais vous pourriez descendre jusqu'à 0,3), effectuez une régression linéaire du score du questionnaire sur l'autre mesure. L'équation résultante vous indiquera la performance correspondante pour tout score de questionnaire saisi. Par exemple, vous pourriez dire que "les utilisateurs font en moyenne 3,3 erreurs sur un site qui a un score de -0,2", ce qui peut être plus significatif que le score en lui-même.
En général, cela ne fonctionne que pour un ensemble de sites ayant des fonctions et des tâches similaires (par exemple, ce sont tous des sites de compagnies aériennes et l'utilisateur essaie de réserver un vol). Sinon, les autres mesures seront partout juste parce que les tâches sont si différentes, ce qui diminue les corrélations. En fait, les corrélations peuvent être faibles de toute façon simplement parce que la satisfaction subjective mesurée avec le questionnaire est un aspect différent de l'utilisabilité que des choses comme l'efficacité ou la prévention des erreurs.
De toute évidence, cela n'a de sens que s'il est plus facile pour vous d'utiliser le questionnaire pour un site en question que pour mesurer directement les performances des autres mesures.
Comparaison avec un autre site
Choisissez un site dont les performances que vous souhaitez égaler ou dépasser avec votre site en question, peut-être un "standard" (par exemple, Amazon), peut-être un concurrent, peut-être le site actuel en production, peut-être une itération de conception antérieure. Demandez à un groupe d'utilisateurs d'évaluer à la fois votre site en question et le site de comparaison. Comptez le nombre d'utilisateurs qui évaluent mieux le nouveau site. Maintenant, vous pouvez dire des choses comme "en moyenne, environ deux utilisateurs sur trois ont mieux évalué le nouveau site".
Vous pouvez également soustraire le score du site de comparaison de votre site pour chaque utilisateur, calculer la moyenne (D) et l'écart (s) standard des scores de différence pour votre échantillon d'utilisateurs, puis calculer le score standard comme suit:
z = D/s
Branchez z dans NORMSDIST () et vous obtenez le pourcentage estimé d'utilisateurs qui s'améliorent sur le site en question en supposant que les scores de différence ont une distribution normale.
(Note latérale sur les statistiques inférentielles)
Pour toutes les méthodes ci-dessus, vous obtenez le score du questionnaire sur un site en question en utilisant un échantillon d'utilisateurs - probablement un assez petit échantillon, de sorte que votre score pourrait facilement être décalé d'une certaine plage en raison d'une erreur d'échantillonnage. Pour déterminer ce que cette plage pourrait raisonnablement être, calculez l'intervalle de confiance à 95% ou 90% (quelle que soit votre confiance) pour obtenir un score supérieur et inférieur, puis effectuez la méthode sélectionnée ci-dessus sur chaque score pour obtenir une gamme de résultats (par exemple, "entre le 16e et le 45e centile"). L'intervalle de confiance est:
Inférieur = L - t * s/sqrt (n)
Supérieur = L + t * s/sqrt (n)
Où L est le score moyen du questionnaire dans l'échantillon, s est l'écart-type des scores du questionnaire dans l'échantillon et n est le nombre d'utilisateurs dans l'échantillon. Le t est la statistique t, que vous pouvez obtenir d'Excel en utilisant la fonction TINV ().
TINV (0,05, n-1) = t pour l'intervalle de confiance à 95%
TINV (0,10, n-1) = t pour l'intervalle de confiance à 90%
Sélection des seuils
Un instrument à échelle Likert produit des valeurs numériques à échelle d'intervalle. L'attribution d'une coupure réduit cette plage de valeurs d'espace égal à deux catégories. Ce processus consiste intrinsèquement à tracer une ligne à travers une zone grise, comme décider d'une coupure du moment où un sac à dos est "trop lourd". Est-ce 40, 50 ou 60 livres? Et si vous dites "50 livres", 51 est-il vraiment totalement sorti, alors que 49 est parfaitement d'accord? Il y a un élément d'arbitraire et aucun algorithme pour arriver à une seule bonne réponse. Il s'agit essentiellement de porter un jugement raisonnable. Dans quelle mesure un site doit-il être meilleur que les normes ou la conception actuelle ou la concurrence? Pour combien d'erreurs ou de conversions voulez-vous tirer? La moyenne est-elle suffisante? Ou voulez-vous tirer pour vraiment supérieur - dites le 75 centile? Avez-vous les ressources pour vous y rendre?
Et peut-être n'avez-vous pas besoin de coupure. Peut-être qu'il suffit d'utiliser l'une des méthodes ci-dessus et de la conserver en termes numériques de centiles ou autres. Incluez ces chiffres avec toutes les autres mesures dont vous disposez pour décider de la qualité d'un site.