Machine Learning : L'apprentissage par renforcement

Fonctionnement

 

Sur quoi cela ce bas ?

Il y a beaucoup d’algorithmes qui abordent cette question.
En fait, l'apprentissage par renforcement est défini par un type spécifique de problème, et toutes les solutions à ces problèmes sont classées comme des algorithmes d’apprentissage par renforcement.

Lorsqu’il y a un problème, la machine est censée décider de la meilleure action à effectuer en fonction de son état actuel.

Lorsque cette étape est répétée, le problème est connu comme étant un processus de décision de Markov.

De façon optimale, l’apprentissage par renforcement utilise des processus de décision de Markov, mais l'idée de base est tout simplement de saisir les aspects les plus importants du vrai problème face à une machine en interaction avec son environnement, pour atteindre un objectif.
De toute évidence, un tel agent doit être capable de détecter l'état de l'environnement dans une certaine mesure et doit être capable de prendre des mesures qui affectent l'état.

Donc on peut en déduire que toute méthode qui s’adapte à la résolution d’un problème est considérée comme une méthode d'apprentissage par renforcement.