web-dev-qa-db-fra.com

Apprentissage Q vs différence temporelle vs apprentissage par renforcement basé sur un modèle

Je suis dans un cours appelé "Machines Intelligentes" à l'université. Nous avons été introduits avec 3 méthodes d'apprentissage renforcé, et avec celles-ci, nous avons eu l'intuition de savoir quand les utiliser, et je cite:

  1. Q-Learning - Meilleur lorsque MDP ne peut pas être résolu.
  2. Apprentissage de la différence temporelle - mieux quand le MDP est connu ou peut être appris mais ne peut pas être résolu.
  3. Basé sur un modèle - meilleur lorsque MDP ne peut pas être appris.

Existe-t-il de bons exemples expliquant quand choisir une méthode plutôt qu'une autre?

21

Différence temporelle est une approche pour apprendre à prédire une quantité qui dépend des valeurs futures d'un signal donné . Il peut être utilisé pour apprendre à la fois la fonction V et la fonction Q, tandis que Q-learning est un algorithme TD spécifique utilisé pour apprendre la fonction Q. Comme indiqué par Don Reba, vous avez besoin de la fonction Q pour effectuer une action (par exemple, en suivant une politique epsilon-greedy). Si vous n'avez que la fonction V, vous pouvez toujours dériver la fonction Q en itérant sur tous les états suivants possibles et en choisissant l'action qui vous mène à l'état avec la valeur V la plus élevée. Pour des exemples et plus d'informations, je recommande le livre classique de Sutton et Barto .

Dans sans modèle RL vous n'apprenez pas la fonction de transition d'état ( le modèle ) et vous ne pouvez compter que sur échantillons. Cependant, vous pourriez également être intéressé à l'apprendre, par exemple parce que vous ne pouvez pas collecter de nombreux échantillons et que vous souhaitez en générer des virtuels. Dans ce cas, nous parlons de basé sur un modèle RL. Basé sur un modèle RL est assez courant en robotique, où vous ne pouvez pas effectuer de nombreuses simulations réelles ou le robot se cassera. Ce est une bonne enquête avec de nombreux exemples (mais il ne parle que d'algorithmes de recherche de politiques). Pour un autre exemple, regardez cet article . Ici, les auteurs apprennent - avec une politique - un processus gaussien pour approximer le modèle avancé du robot, afin de simuler des trajectoires et de réduire le nombre d'interactions réelles avec le robot.

35
Simon