web-dev-qa-db-fra.com

Comment interpréter la classification weka?

Comment interpréter le résultat du classement dans weka en utilisant des bayes naïfs?

Comment la moyenne, l'écart std, la somme des poids et la précision sont-ils calculés?

Comment est calculée la statistique kappa, l'erreur absolue moyenne, l'erreur quadratique moyenne, etc.?

Quelle est l'interprétation de la matrice de confusion?

54
user349821

Vous trouverez ci-dessous un exemple de sortie pour un classificateur Bayes naïf, utilisant une validation croisée 10 fois. Il y a beaucoup d'informations là-dessus, et ce sur quoi vous devez vous concentrer dépend de votre application. Je vais vous expliquer certains des résultats ci-dessous, pour vous aider à démarrer.

=== Stratified cross-validation ===
=== Summary ===

Correctly Classified Instances          71               71      %
Incorrectly Classified Instances        29               29      %
Kappa statistic                          0.3108
Mean absolute error                      0.3333
Root mean squared error                  0.4662
Relative absolute error                 69.9453 %
Root relative squared error             95.5466 %
Total Number of Instances              100     

=== Detailed Accuracy By Class ===

               TP Rate   FP Rate   Precision   Recall  F-Measure   ROC Area  Class
                 0.967     0.692      0.686     0.967     0.803      0.709    0
                 0.308     0.033      0.857     0.308     0.453      0.708    1
Weighted Avg.    0.71      0.435      0.753     0.71      0.666      0.709

=== Confusion Matrix ===

  a  b   <-- classified as
 59  2 |  a = 0
 27 12 |  b = 1

Les instances correctement et incorrectement classées indiquent le pourcentage d'instances de test qui ont été correctement et incorrectement classées. Les nombres bruts sont affichés dans la matrice de confusion, avec a et b représentant les étiquettes de classe. Ici, il y avait 100 instances, donc les pourcentages et les nombres bruts s'additionnent, aa + bb = 59 + 12 = 71, ab + ba = 27 + 2 = 29.

Le pourcentage d'instances correctement classées est souvent appelé précision ou précision de l'échantillon. Il présente certains inconvénients en tant qu'estimation des performances (non corrigée par hasard, non sensible à la distribution des classes), donc vous voudrez probablement regarder certains des autres chiffres. La zone ROC, ou zone sous la courbe ROC, est ma mesure préférée.

Kappa est une mesure d'accord corrigée par les chances entre les classifications et les vraies classes. Il est calculé en retirant l'accord attendu par hasard de l'accord observé et en le divisant par l'accord maximum possible. Une valeur supérieure à 0 signifie que votre classificateur fait mieux que le hasard (il devrait vraiment l'être!).

Les taux d'erreur sont utilisés pour la prédiction numérique plutôt que pour la classification. Dans la prédiction numérique, les prédictions ne sont pas juste bonnes ou mauvaises, l'erreur a une ampleur et ces mesures reflètent cela.

J'espère que cela vous aidera à démarrer.

88
michaeltwofish

Pour développer la réponse de michaeltwofish, quelques notes sur les valeurs restantes:

  • Taux TP : taux de vrais positifs (instances correctement classées dans une classe donnée)

  • Taux de FP : taux de faux positifs (instances faussement classées comme une classe donnée)

  • Précision : proportion d'instances qui appartiennent réellement à une classe divisée par le nombre total d'instances classées dans cette classe

  • Rappel : proportion d'instances classées dans une classe donnée divisée par le total réel dans cette classe (équivalent au taux TP)

  • Mesure F : Une mesure combinée de précision et de rappel calculée comme 2 * Précision * Rappel/(Précision + Rappel)

En ce qui concerne la mesure de la zone ROC, je suis d'accord avec michaeltwofish que c'est l'une des valeurs les plus importantes produites par Weka. Un classificateur "optimal" aura des valeurs de zone ROC approchant 1, 0,5 étant comparable à une "estimation aléatoire" (similaire à une statistique Kappa de 0).

Il convient de noter que "l'équilibre" de l'ensemble de données doit être pris en compte lors de l'interprétation des résultats. Des ensembles de données déséquilibrés dans lesquels un nombre disproportionnellement élevé d'instances appartiennent à une certaine classe peuvent conduire à des taux de précision élevés même si le classificateur n'est pas nécessairement particulièrement bon.

Lectures complémentaires:

28
Hybrid System

Qu'est-ce que Naive Bayes?

Cette explication pourrait aider à clarifier ce que Naive Bayes signifie; il suppose l'indépendance des variables. Pour rendre cela concret, disons que nous voulons prédire si quelqu'un a traversé Prospect Park à Brooklyn. Nous avons des données pour savoir

a) vivre à New York

b) vivre dans une ville

Naive Bayes supposerait que ces deux variables sont indépendantes. Mais clairement, s'ils vivent à New York, ils vivent également dans la ville a. C'est un exemple stupide parce que (espérons-le) personne n'utiliserait jamais la science des données avec ces variables, mais il montre ce que signifie l'indépendance. Si a, alors b. De plus, si ce n'est pas b, alors ce n'est pas a.

Il y a une dépendance, donc Naive Bayes ' naive l'hypothèse ne tient pas.

Tutoriel Weka

Cette page peut être utile aux débutants. Cela m'aide beaucoup; ça marche

Je ne suis pas affilié à Jason Brownlee. Il semble être une sorte de vente, mais l'avantage est qu'il reste simple car il cible les débutants

1
frank

Il donne chaque valeur de "50050000" pour certains algorithmes tandis que pour d'autres classificateurs, ces valeurs sont d'environ 49,7, 87,4, 98,2, etc.

0
user5001496