Machine Learning : L'apprentissage par renforcement
Q-Learning
Algorithme
En Q-learning de l'agent commence dans l'état 1, effectue l'action 1 et obtient une récompense (récompense 1).
Il regarde ensuite, et voit que la récompense maximale possible pour une action est en état 2.
Il l'utilise alors pour mettre à jour la valeur de l'action : effectuer l'action 1 dans l'état 1.
Voisi l'algorithme Q-learning :