fonction de coût pour la régression logistique est
cost(h(theta)X,Y) = -log(h(theta)X) or -log(1-h(theta)X)
Ma question est la suivante: quelle est la base de l'expression logarithmique de la fonction de coût? Je crois que vous ne pouvez pas simplement mettre "-log" de nulle part. Si quelqu'un pouvait expliquer la dérivation de la fonction de coût, je vous en serais reconnaissant. Je vous remercie.
Cette fonction de coût est simplement une reformulation du critère de maximum (de log) vraisemblance.
Le modèle de régression logistique est le suivant:
P(y=1 | x) = logistic(θ x)
P(y=0 | x) = 1 - P(y=1 | x) = 1 - logistic(θ x)
La probabilité s’écrit comme suit:
L = P(y_0, ..., y_n | x_0, ..., x_n) = \prod_i P(y_i | x_i)
Le log-vraisemblance est:
l = log L = \sum_i log P(y_i | x_i)
Nous voulons trouver θ qui maximise la probabilité:
max_θ \prod_i P(y_i | x_i)
Cela revient à maximiser le log-vraisemblance:
max_θ \sum_i log P(y_i | x_i)
Nous pouvons réécrire ceci comme une minimisation du coût C = -l:
min_θ \sum_i - log P(y_i | x_i)
P(y_i | x_i) = logistic(θ x_i) when y_i = 1
P(y_i | x_i) = 1 - logistic(θ x_i) when y_i = 0
Si j'ai bien compris (je ne me trompe peut-être pas, ce n'est pas un expert à 100%), on peut expliquer en gros la variable log
comme non conforme à la variable exp
qui apparaît dans la formule d'une densité de probabilité gaussienne . (Rappelez-vous -log(x) = log(1/x)
.)
Si je comprends bien Bishop [1]: Lorsque nous supposons que nos échantillons d’entraînement positifs et négatifs proviennent de deux grappes gaussiennes différentes (emplacement différent mais même covariance), nous pouvons alors développer un classificateur parfait. Et ce classificateur ressemble à une régression logistique (par exemple, une frontière de décision linéaire).
Bien sûr, la question suivante est de savoir pourquoi devrions-nous utiliser un classificateur optimal pour séparer les clusters gaussiens, alors que nos données d’apprentissage paraissent souvent différentes?
[1] Reconnaissance des formes et apprentissage automatique, Christopher M. Bishop, chapitre 4.2 (Modèles génératifs probabilistes).
Je ne pouvais pas envelopper mon esprit à la réponse du point "convexe". Au lieu de cela, je préfère l'explication du degré de sanction. La fonction de coût du journal pénalise lourdement les prévisions confiantes et erronées ..__ Si j'utilise une fonction de coût de MSE comme ci-dessous.
Si y = 1 coût = (1-yhat) ^ 2; si y = 0 coût = yhat ^ 2.
Cette fonction de coût est également convexe. Cependant, il n’est pas aussi convexe que le coût du journal. Si je me trompe avec la définition de convexe, merci de me le faire savoir. Je suis débutant en régression.
La fonction coût (fonction sigmoïde) renvoie un résultat compris entre [0,1], mais lorsque nous additionnons les valeurs sigmoïdes sur un grand point de données, nous pouvons rencontrer des problèmes de stabilité numérique, car les résultats de la fonction sigmoïde pourraient petits nombres décimaux . L'utilisation de la fonction log () sur la fonction sigmoïde prend également en charge les problèmes de calcul numérique qui se posent, sans pour autant affecter l'objectif d'optimisation.