Machine Learning : L'apprentissage par renforcement

Q-Learning

 

Algorithme

En Q-learning de l'agent commence dans l'état 1, effectue l'action 1 et obtient une récompense (récompense 1).
Il regarde ensuite, et voit que la récompense maximale possible pour une action est en état 2.
Il l'utilise alors pour mettre à jour la valeur de l'action : effectuer l'action 1 dans l'état 1.

Voisi l'algorithme Q-learning :