Machine Learning : L'apprentissage par renforcement

Apprentissage par renforcement

 

Definition

L’apprentissage automatique a comme objectif de créer des programmes intelligents, au travers de processus d’apprentissage et d’évolution.

L’apprentissage par renforcement consiste à apprendre par interaction avec l’environnement et, en observant le résultat de certaines actions. Il permet à des machines de déterminer automatiquement le comportement idéal dans un contexte spécifique, afin de maximiser ses performances. Pour cela, un simple retour des résultats est nécessaire pour apprendre comment les machines doivent agir. Ceci est appelé le signal de renforcement.

Cela imite la manière fondamentale dont les humains et les animaux apprennent. En tant qu'êtres humains, nous pouvons effectuer des actions et observer leurs résultats sur notre environnement.

Connue sous le nom de «cause à effet», c’est sans doute la clé de la construction de notre connaissance tout au long de notre vie.

Cause à effet

Le terme «cause à effet» pour l’apprentissage par renforcement peut être caractérisé par les étapes suivantes :

1. L'agent observe un état d'entrée
2. Une action est déterminée par une fonction de prise de décision (politique)
3. L'action est effectuée
4. L'agent reçoit une résultât en fonction de son environnement
5. Informations sur le résultât donnée pour cette état ou action est enregistrée

En effectuant des actions, on observe les récompenses qui en résultent, afin de déterminer la meilleure action pour un état donné.

Finalement, si suffisamment d'états sont observés, une politique de décision optimale sera générée et nous aurons une machine qui agie parfaitement dans cet environnement particulier. La machine ne sait pas quelles actions ou décisions prendre, comme dans la plupart des formes d'apprentissage de la machine, mais il doit découvrir quelles actions donnent le plus de récompenses en les essayant.

Dans les cas les plus intéressants, les actions peuvent affecter non seulement la récompense immédiate, mais aussi la situation suivante et, à travers elle, toutes les récompenses suivantes.