Apprentissage par Renforcement

Présentation

L'apprentissage par renforcement est une méthode d'apprentissage qui s'apparente à celle de l'homme. Un agent autonome est plongé au sein d'un environnement avec lequel il intéragit. L'agent développe son propre comportement suite à une serie d'entrainements dans lesquels il reçoit des récompenses positives ou négatives en fonction de ses choix et des règles du système.

Les Ètats

Les états correspondent à une configuration donnée d'un système, chacun d'eux est donc unique. Ils sont utilisés comme index pour que l'agent puisse cibler des espérances de gain et ainsi prendre une décision optimale.

L'Entrainement

Pour qu'un agent puissent prendre des décisions optimales, il a besoin de s'entrainer. Pour réaliser cette tâche, il est plongé dans un environnement avec lequel il va intéragir. L'agent va alterner les phases d'exploration et les phases d'exploitation. Cette alternance dépend de la valeur du taux d'exploration (epsilon). Plus cette valeur se rapproche de 1 plus l'agent a de chance de pratiquer l'exploration, plus elle se rapproche de 0 plus l'agent a de chance de pratiquer l'exploitation. La qualité de l'entrainement va, entre autres choses, dépendre de la couverture des états réalisée par l'équilibre entre exploration et exploitation. En général, epsilon est initialisé à une valeur proche de 1, valeur diminuant progressivement entre chaque entrainement pour atteindre 0 lors de la phase de test.

L'Exploration

Lors des phases d'exploration, l'agent prend une décision aléatoire pour interagir avec l'environnement.

L'Exploitation

Lors des phases d'exploitation, l'agent prend une décision optimale pour interagir avec l'environnement. Cette décision se fonde sur un tableau lié à l'état du système.

L'Apprentissage

L'apprentissage est appelé à divers moments de l'entrainement en fonction du contexte et de son algorithme (la fonction V, la fonction Q, ...). C'est à ce moment là que les espérances de gain sont mises à jour en fonction des récompenses obtenues suite aux décisions prises par l'agent et aux règles du système.