Machine Learning : L'apprentissage par renforcement

Références

 

Bibliographie

- Ronen Brafman, Moshe Tennenholtz, “Rmax – A General Polynomial Time Algorithm for Near-Optimal Reinforcement Learning”, Journal of Machine Learning Ressearch, pages 213-231, 2002.
- Rémi Coulom, “Apprentissage par renforcement utilisant les réseaux de neurones, avec des applications au contrôle moteur”, Ph.D. thesis, INPG, Grenoble, 2002.
- Richard Sutton, Andrew Barto, “Reinforcement Learning”, MIT Press.
- Richard Sutton, “Learning to Predict by the methods of Temporal Differences”, Machine Learning 3, pages 9-44, Kluwer, 1988.
- Christopher Watkins, “Learning from delayed rewards”, Ph.D. thesis, Cambridge University, 1989.
- Christopher Watkins, Peter Dayan, “Q-learning”, Machine Learning, 8, pages 279- 292, 1992.