web-dev-qa-db-fra.com

Qu'est-ce qu'une politique d'apprentissage par renforcement?

J'ai vu des mots comme:

Une politique définit la façon dont l'agent d'apprentissage se comporte à un moment donné. En gros, une politique est une cartographie des états perçus de l'environnement aux actions à entreprendre dans ces états.

Mais je ne comprenais toujours pas complètement. Qu'est-ce qu'une politique en matière d'apprentissage par renforcement?

12
Alexander Cyberman

La définition est correcte, mais pas immédiatement évidente si vous la voyez pour la première fois. Permettez-moi de le dire ainsi: une politique est la stratégie d'un agent .

Par exemple, imaginez un monde où un robot se déplace dans la pièce et la tâche consiste à atteindre le point cible (x, y), où il obtient une récompense. Ici:

  • Une pièce est un environnement
  • La position actuelle du robot est un état
  • Une politique est ce qu'un agent fait pour accomplir cette tâche:

    • les robots stupides se promènent au hasard jusqu'à ce qu'ils se retrouvent accidentellement au bon endroit (politique n ° 1)
    • d'autres peuvent, pour une raison quelconque, apprendre à longer le long des murs pendant la majeure partie du trajet (politique n ° 2)
    • des robots intelligents planifient l'itinéraire dans leur "tête" et vont directement au but (politique n ° 3)

De toute évidence, certaines politiques sont meilleures que d'autres, et il existe plusieurs façons de les évaluer, à savoir fonction de valeur d'état et fonction de valeur d'action . Le but de RL est d'apprendre la meilleure politique. Maintenant, la définition devrait avoir plus de sens (notez que dans le contexte, le temps est mieux compris comme un état):

Une politique définit la façon dont l'agent d'apprentissage se comporte à un moment donné.

Officiellement

Plus formellement, nous devons d'abord définir Processus de décision de Markov (MDP) comme un tuple (S, A, P, R, y), où:

  • S est un ensemble fini d'états
  • A est un ensemble fini d'actions
  • P est une matrice de probabilité de transition d'état (probabilité de se retrouver dans un état pour chaque état actuel et chaque action)
  • R est une fonction de récompense, étant donné un état et une action
  • y est un facteur de remise compris entre 0 et 1

Ensuite, une politique π est une distribution de probabilité sur des actions données dans des états. C'est la probabilité de chaque action lorsqu'un agent est dans un état particulier (bien sûr, je saute beaucoup de détails ici). Cette définition correspond à la deuxième partie de votre définition.

Je recommande fortement David Silver's RL course disponible sur YouTube. Les deux premières conférences se concentrent particulièrement sur les MDP et les politiques.

15
Maxim

En clair, dans le cas le plus simple, une politique π Est une fonction qui prend en entrée un état s et retourne une action a. C'est-à-dire: π(s) → a

De cette façon, la stratégie est généralement utilisée par l'agent pour décider quelle action a doit être exécutée lorsqu'il se trouve dans un état donné s.

Parfois, la politique peut être stochastique au lieu de déterministe. Dans un tel cas, au lieu de renvoyer une action unique a, la politique renvoie une distribution de probabilité sur un ensemble d'actions.

En général, l'objectif de tout algorithme RL est d'apprendre une politique optimale qui atteint un objectif spécifique.

6
Pablo EM

Voici une réponse succincte: une politique est la "pensée" de l'agent. C'est le mappage de quand vous êtes dans un état s, quelle action a l'agent devrait-il prendre maintenant? Vous pouvez considérer les stratégies comme une table de recherche:

state----action----probability/'goodness' of taking the action
  1         1                     0.6
  1         2                     0.4
  2         1                     0.3
  2         2                     0.7

Si vous êtes dans l'état 1, vous choisiriez (en supposant une stratégie gourmande) l'action 1. Si vous êtes dans l'état 2, vous choisiriez l'action 2.

5
Martin Dinov