web-dev-qa-db-fra.com

Que signifie «échauffement du rythme d'apprentissage»?

Dans l'apprentissage automatique, en particulier l'apprentissage en profondeur, que signifie l'échauffement?

J'ai entendu à plusieurs reprises que dans certains modèles, l'échauffement est une phase de l'entraînement. mais honnêtement, je ne sais pas ce que c'est parce que je suis très nouveau en ML. Jusqu'à présent, je ne l'ai jamais utilisé ou rencontré, mais je veux le savoir car je pense qu'il pourrait être utile pour moi. alors:

Qu'est-ce que l'échauffement du taux d'apprentissage et quand en avons-nous besoin?

merci d'avance.

15
Peyman

Si votre ensemble de données est très différencié, vous pouvez souffrir d'une sorte de "surajustement précoce". Si vos données mélangées contiennent un groupe d'observations connexes fortement mises en évidence, la formation initiale de votre modèle peut biaiser fortement vers ces fonctionnalités - ou pire, vers des fonctionnalités accessoires qui ne sont pas vraiment liées au sujet.

L'échauffement est un moyen de réduire l'effet de primauté des premiers exemples d'entraînement. Sans cela, vous devrez peut-être exécuter quelques époques supplémentaires pour obtenir la convergence souhaitée, car le modèle annule ces premières superstitions.

De nombreux modèles offrent cette option en ligne de commande. Le taux d'apprentissage augmente de façon linéaire au cours de la période d'échauffement. Si le taux d'apprentissage cible est p et la période d'échauffement est n, la première itération par lots utilise 1*p/n pour son taux d'apprentissage; le second utilise 2*p/n, etc.: itération i utilise i*p/n, jusqu'à ce que nous atteignions le taux nominal à l'itération n.

Cela signifie que la première itération n'obtient que 1/n de l'effet de primauté. Cela fait un travail raisonnable d'équilibrer cette influence.

Notez que la montée en puissance est généralement de l'ordre d'une époque - mais est parfois plus longue pour des données particulièrement asymétriques, ou plus courte pour des distributions plus homogènes. Vous souhaiterez peut-être ajuster, selon l'extrême fonctionnalité de vos lots lorsque l'algorithme de mélange est appliqué à l'ensemble d'entraînement.

25
Prune

Cela signifie que si vous spécifiez votre taux d'apprentissage comme étant 2e-5, alors pendant la formation, le taux d'apprentissage sera augmenté linéairement d'environ 0 à 2e-5 dans les premiers 10 000 pas.

7
Patel