Lorsque j'augmente/diminue la taille du lot du mini-lot utilisé dans SGD, dois-je changer le taux d'apprentissage? Si oui, alors comment?
Pour référence, je discutais avec quelqu'un, et il a été dit que, lorsque la taille du lot augmente, le taux d'apprentissage doit être diminué dans une certaine mesure.
Ma compréhension est que lorsque j'augmente la taille du lot, le gradient moyen calculé sera moins bruyant et je garde donc le même taux d'apprentissage ou l'augmente.
De plus, si j'utilise un optimiseur de taux d'apprentissage adaptatif, comme Adam ou RMSProp, je suppose que je peux laisser le taux d'apprentissage intact.
S'il vous plaît, corrigez-moi si je me trompe et donnez un aperçu à ce sujet.
La théorie suggère que lors de la multiplication de la taille du lot par k, on devrait multiplier le taux d'apprentissage par sqrt (k) pour maintenir constante la variance de l'attente du gradient. Voir page 5 à A. Krizhevsky. Une astuce étrange pour paralléliser les réseaux de neurones convolutifs : https://arxiv.org/abs/1404.5997
Cependant, des expériences récentes avec de grands mini-lots suggèrent une règle de mise à l'échelle linéaire plus simple, c'est-à-dire que vous multipliez votre taux d'apprentissage par k lorsque vous utilisez une taille de mini-lot de kN. Voir P.Goyal et al .: SGD précis et de grande taille: formation ImageNet en 1 heure https://arxiv.org/abs /1706.02677
Je dirais qu'avec l'utilisation d'Adam, Adagrad et d'autres optimiseurs adaptatifs, le taux d'apprentissage peut rester le même si la taille du lot ne change pas substantiellement.
Outre les articles mentionnés dans la réponse de Dmytro, vous pouvez vous référer à l'article de: Jastrzębski, S., Kenton, Z., Arpit, D., Ballas, N., Fischer, A., Bengio, Y. , & Storkey, A. (2018, octobre) .La largeur des minima atteints par la descente de gradient stochastique est influencée par le taux d'apprentissage par rapport à la taille du lot . Les auteurs donnent le fondement mathématique et empirique à l'idée que le rapport du taux d'apprentissage à la taille des lots influence la capacité de généralisation de DNN. Ils montrent que ce rapport joue un rôle majeur dans la largeur des minima trouvés par SGD. Plus le rapport est élevé, plus les minima sont larges et une meilleure généralisation.