web-dev-qa-db-fra.com

métrique mAP en détection d'objet et vision par ordinateur

Dans la vision par ordinateur et la détection d'objets, la méthode d'évaluation commune est mAP. De quoi s'agit-il et comment est-il calculé?

80
cerebrou

Les citations proviennent de ce qui est mentionné ci-dessus Document de Zisserman - 4.2 Évaluation des résultats (page 11) :

Tout d'abord, un "critère de chevauchement" est défini comme une intersection sur union supérieure à 0,5. (Par exemple, si une boîte prédite satisfait à ce critère en ce qui concerne une boîte de vérité au sol, elle est considérée comme une détection). Ensuite, une correspondance est faite entre les cases GT et les cases prédites en utilisant cette approche "gourmande":

Les détections produites par une méthode ont été affectées à des objets de vérité au sol satisfaisant le critère de chevauchement dans l'ordre de la sortie de confiance (décroissante). Les détections multiples du même objet dans une image étaient considérées comme des détections fausses, par ex. 5 détections d'un seul objet comptant pour 1 détection correcte et 4 fausses détections

Par conséquent, chaque case prédite est True-Positive ou False-Positive. Chaque boîte de vérité sur le terrain est True-Positive. Il n'y a pas de vrais négatifs.

Ensuite, la précision moyenne est calculée en faisant la moyenne des valeurs de précision sur la courbe de rappel de précision où le rappel se situe dans la plage [0, 0,1, ..., 1] (par exemple, la moyenne de 11 valeurs de précision). Pour être plus précis, considérons une courbe PR légèrement corrigée, où pour chaque point de la courbe (p, r), s’il existe un point de courbe différent (p ', r') tel que p '> p et r'> = r , nous remplaçons p par le maximum p 'de ces points.

Ce que je ne comprends toujours pas, c’est ce qui est fait avec ces boîtes GT qui ne sont jamais détectées (même si la confiance est de 0). Cela signifie qu'il existe certaines valeurs de rappel que la courbe de rappel de précision n'atteindra jamais, ce qui rend le calcul de la précision moyenne supérieur à indéfini.

Modifier:

Réponse courte: dans la région où le rappel est inaccessible, la précision tombe à 0.

Une façon d'expliquer cela est de supposer que lorsque le seuil de la confiance approche 0, un nombre infini de boîtes englobantes prédites s'illuminent sur l'image. La précision passe alors immédiatement à 0 (puisqu'il n'y a qu'un nombre fini de boîtes GT) et le rappel continue de croître sur cette courbe plate jusqu'à atteindre 100%.

38
Jonathan

la mAP est la précision moyenne moyenne.

Son utilisation est différente dans le domaine des paramètres de récupération d'informations (référence [1][2] ) et de classification multi-classe (détection d'objet).

Pour le calculer pour la détection d'objet, vous calculez la précision moyenne de chaque classe dans vos données en fonction des prévisions de votre modèle. La précision moyenne est liée à l'aire sous la courbe de rappel de précision pour une classe. Ensuite, en prenant la moyenne de ces moyennes individuelles, la précision moyenne vous donne la précision moyenne moyenne.

Pour calculer la précision moyenne, voir [3]

45
Ankitp

Pour la détection, un moyen courant de déterminer si une proposition d'objet était correcte est Intersection sur Union (IoU, IU). Ceci prend l'ensemble A des pixels de l'objet proposé et l'ensemble des vrais pixels de l'objet B et calcule:

Communément, IoU> 0.5 signifie que c'était un succès, sinon c'était un échec. Pour chaque classe, on peut calculer le

  • True Positive TP (c): une proposition a été faite pour la classe c et il y avait en fait un objet de classe c
  • False Positive FP (c): une proposition a été faite pour la classe c, mais il n'y a pas d'objet de la classe c
  • Précision moyenne pour la classe c:

La mAP (précision moyenne moyenne) est alors:

Remarque: Si l'on veut de meilleures propositions, on augmente la valeur de l'IoU de 0,5 à une valeur plus élevée (jusqu'à 1,0, ce qui serait parfait). Cela peut être noté avec mAP @ p, où p\in (0, 1) est l'IoU.

mAP@[.5:.95] signifie que la mAP est calculée sur plusieurs seuils, puis à nouveau moyennée

Edit: Pour plus d'informations, voir COCO Mesures d'évaluation

26
mrk

Je pense que la partie importante ici concerne la façon dont la détection d’objet peut être considérée comme identique aux problèmes classiques de récupération d’informations pour lesquels il existe au moins un excellente description de la précision moyenne .

La sortie d’un algorithme de détection d’objet est un ensemble de boîtes englobantes proposées et, pour chacune d’elles, un score de confiance et de classification (un score par classe). Ignorons les résultats de la classification pour le moment et utilisons la confiance comme entrée dans une classification binaire de seuil . Intuitivement, la précision moyenne est une agrégation de tous les choix pour la valeur seuil/seuil. Mais attendez; afin de calculer la précision, nous devons savoir si une boîte est correcte!

C'est là que ça devient confus/difficile; contrairement aux problèmes classiques de récupération d'informations, nous avons en fait un niveau supplémentaire de classification ici. Autrement dit, nous ne pouvons pas faire de correspondance exacte entre les cases, nous devons donc classer si une boîte de sélection est correcte ou non. La solution consiste essentiellement à effectuer une classification codée en dur sur les dimensions de la boîte; nous vérifions si elle chevauche suffisamment une quelconque vérité sur le terrain pour être considérée comme "correcte". Le seuil pour cette partie est choisi par bon sens. L'ensemble de données sur lequel vous travaillez définira probablement le seuil correspondant à un cadre de sélection "correct". La plupart des ensembles de données fixent simplement la valeur à 0,5 Io et laissent les choses en l'état (je vous recommande de faire quelques calculs manuels d'IoU [ils ne sont pas difficiles] pour avoir une idée de la sévérité de l'IoU de 0,5).

Maintenant que nous avons défini ce que signifie être "correct", nous pouvons simplement utiliser le même processus que la recherche d'informations.

Pour trouver la précision moyenne moyenne (PAP), il vous suffit de stratifier les boîtes proposées en fonction du maximum des scores de classification associés à ces boîtes, puis de prendre la moyenne (moyenne) de la précision moyenne (PA) sur les classes.

TLDR; Faites la distinction entre déterminer si une prédiction de boîte de sélection est "correcte" (niveau de classification supplémentaire) et évaluer dans quelle mesure la confiance de la boîte vous informe d'une prédiction de boîte de sélection "correcte" (complètement analogue à un cas d'extraction d'informations) et les descriptions typiques de le mAP aura un sens.


Il est intéressant de noter que la surface sous la courbe Précision/Rappel correspond à la précision moyenne , et nous approximons essentiellement cette surface avec la règle trapézoïdale ou droite pour l'approximation des intégrales.

8
Multihunter

Définition: mAP → précision moyenne moyenne

Dans la plupart des concours de détection d'objets, il existe plusieurs catégories à détecter et l'évaluation du modèle est effectuée sur une catégorie spécifique à chaque fois. Le résultat de l'évaluation est le point d'accès de cette catégorie.

Lorsque chaque catégorie est évaluée, la moyenne de tous les points d'accès est calculée en tant que résultat final du modèle, qui est mAP.

1
刘洪宇