web-dev-qa-db-fra.com

Pourquoi la méthode de l'entropie croisée est-elle préférée à l'erreur quadratique moyenne? Dans quels cas cela ne tient-il pas?

Bien que les deux méthodes ci-dessus fournissent un meilleur score pour une meilleure proximité de prédiction, une entropie croisée est toujours préférée. Est-ce dans tous les cas ou il existe des scénarios particuliers où nous préférons l'entropie croisée à MSE?

31
Amogh Mishra

L'entropie croisée est préférable pour classification, tandis que l'erreur quadratique moyenne est l'un des meilleurs choix pour régression. Cela vient directement de l'énoncé des problèmes lui-même - dans la classification, vous travaillez avec un ensemble très particulier de valeurs de sortie possibles, donc MSE est mal défini (car il n'a pas ce type de connaissances pénalise donc les erreurs de manière incompatible). Pour mieux comprendre les phénomènes, il est bon de suivre et de comprendre les relations entre

  1. entropie croisée
  2. régression logistique (entropie croisée binaire)
  3. régression linéaire (MSE)

Vous remarquerez que les deux peuvent être considérés comme des estimateurs du maximum de vraisemblance, simplement avec des hypothèses différentes sur la variable dépendante.

39
lejlot

Lorsque vous dérivez la fonction de coût de l'aspect de la probabilité et de la distribution, vous pouvez observer que MSE se produit lorsque vous supposez que l'erreur suit la distribution normale et l'entropie croisée lorsque vous supposez une distribution binomiale. Cela signifie que, implicitement, lorsque vous utilisez MSE, vous effectuez une régression (estimation) et lorsque vous utilisez CE, vous effectuez une classification. J'espère que ça aide un peu.

25
Duc Nguyen

Si vous effectuez une régression logistique par exemple, vous utiliserez la fonction sigmoïde pour estimer la probabilité, l'entropie croisée comme fonction de perte et la descente du gradient pour la minimiser. Faire cela mais en utilisant MSE comme fonction de perte peut conduire à un problème non convexe où vous pourriez trouver des minima locaux. L'utilisation d'entropie croisée entraînera un problème convexe où vous pourriez trouver la solution optimale.

https://www.youtube.com/watch?v=rtD0RvfBJqQ&list=PL0Smm0jPm9WcCsYvbhPCdizqNKps69W4Z&index=35

Il y a aussi une analyse intéressante ici: https://jamesmccaffrey.wordpress.com/2013/11/05/why-you-should-use-cross-entropy-error-instead-of-classification-error- ou-erreur quadratique moyenne pour la formation d'un classificateur de réseau neuronal /

8
Julian