Je comprends ce que fait Gradient Descent. Fondamentalement, il essaie de se déplacer vers la solution optimale locale en descendant lentement la courbe. J'essaie de comprendre quelle est la différence réelle entre la descente du gradient plan et la méthode de Newton?
De Wikipedia, j'ai lu cette courte ligne "La méthode de Newton utilise des informations de courbure pour prendre un itinéraire plus direct." Qu'est-ce que cela signifie intuitivement?
Au minimum local (ou maximum) x
, la dérivée de la fonction cible f
disparaît: f'(x) = 0
(en supposant un lissage suffisant de f
).
La descente en gradient essaie de trouver un tel minimum x
en utilisant les informations de la première dérivée de f
: elle suit simplement la descente la plus raide à partir du point actuel. C'est comme faire rouler une boule sur le graphique de f
jusqu'à ce qu'elle s'arrête (tout en négligeant l'inertie).
La méthode de Newton essaie de trouver un point x
satisfaisant f'(x) = 0
en approximant f'
avec une fonction linéaire g
puis résolution explicite de la racine de cette fonction (c'est la méthode de recherche de racine de Newton). La racine de g
n'est pas nécessairement la racine de f'
, mais c'est dans de nombreuses circonstances une bonne supposition (le article Wikipedia sur la méthode de Newton pour trouver les racines contient plus d'informations sur les critères de convergence). Tout en se rapprochant de f'
, La méthode de Newton utilise f''
(la courbure de f
). Cela signifie qu'il a des exigences plus élevées sur la fluidité de f
, mais cela signifie également que (en utilisant plus d'informations) il converge souvent plus rapidement.
En termes simples, la descente du gradient vous suffit de faire un petit pas vers l'endroit où vous pensez que le zéro est, puis de recalculer; La méthode de Newton, vous allez jusqu'au bout.
Edit 2017 : Le lien d'origine est mort - mais le chemin du retour de la machine l'a toujours :) https://web.archive.org /web/20151122203025/http://www.cs.colostate.edu/~anderson/cs545/Lectures/week6day2/week6day2.pdf
ce power point les idées principales sont expliquées simplement http://www.cs.colostate.edu/~anderson/cs545/Lectures/week6day2/week6day2.pdf
J'espère que cette aide :)