Machine Learning : L'apprentissage par renforcement

Sarsa

 

Algorithme

SARSA signifie État-action-récompense-État-Action. En SARSA, l'agent commence à l'état 1, effectue l'action 1, et obtient une récompense (récompense 1). Maintenant, il est dans l'état 2 et effectue une autre action (action 2) et obtient la récompense de cet état (récompense 2) avant qu'il ne remonte et mette à jour la valeur de l'action 1, effectuée dans l'état 1.

Voisi l'algorithme de Sarsa :

Comme nous pouvons le voir, la méthode SARSA prend un autre paramètre, action2, qui est l'action qui a été réalisée par l'agent du second état.

Cela permet à l'agent de trouver explicitement la valeur future de récompense, qnext, qui a suivi, plutôt que de supposer que l'action optimale sera prise et que la plus grande récompense, maxqnew , entraîné.