Machine Learning

Apprentissage par renforcement

 

Sommaire

Introduction

       Définition

       Comment ça marche

        Algorithme

Conclusion

 

Introduction

  • Big Data
    • Volume
    • Vélocité
    • Variété
  • Le Machine Learning
    • Supérieur aux algorithmes classiques
  • Prochaine révolution informatique 

Définition

  • Machine Learning

  • Apprentissage par renforcement

 

Machine Learning

  • L’apprentissage automatique en français
  • Approche de l’intelligence artificielle
  • Machine qui évolue
  • Différents types d'apprentissage :
    • Supervisé 
    • Non supervisé 
    • Semi-supervisé
    • Par renforcement 

L’apprentissage supervisé 

 

  • Utilise : 
    • Données étiquetées
  • Fonctionnement
    • Prédire l'étiquette de nouvelles données
    • En fonction d'un modèle

 

Exemple :

  • L'analyse discriminante  
    • Expliquer 
    • Prédire 

L’apprentissage non supervisé 

 

  • Utilise : 
    • Données non-étiquetées
  • Fonctionnement : 
    • Découvre lui-même la structure

    • En fonction des données

 

Exemple :

  • Épidémiologiste :
    • Différents groupes.
    • Divers facteurs explicatifs.

L’apprentissage semi-supervisé

 

  • Utilise :
    • Données étiquetées 
    • Données non-étiquetées 
  • Objectif:
    • Améliorer la qualité 

 

Exemple :

  • Le co-apprentissage

Apprentissage par renforcement

  • Apprendre par interaction
    • Environnement 
    • Observant
    • Actions
  • Détermine le comportement idéal
    • Maximiser ses performances
  • Imite notre manière d'apprendre
    • «Cause à effet»

Cause à effet

  1. Observe un état d'entrée
  2. Une action est déterminée
  3. L'action est effectuée
  4. Reçoit un résultat
  5. Résultat enregistré

 

  • Ne connait pas :
    • quelles décisions prendre
    • quelles actions effectuer
  • Mais doit le découvrir

 

Apprentissage par renforcement

 

  • Objectif :
    • Déterminer :
      • le résultat courant
      • toutes les suivantes

Comment ça marche

  • Fonctionnement

  • Limite
  • Comparaison

Fonctionnement

  • Toute solution a un problème
    • Apprentissage par renforcement
  • Lorsqu'il y a un problème
    • Meilleure action à effectuer
    • En fonction de son état actuel

 

  • Processus de décision de Markov

Limite

  • Trop coûteux en mémoire
  • Elaboration très technique
  • Problèmes très modulaires
  • Déterminer l'état actuel

Comparaison

  • L'apprentissage supervisé 
  • L'apprentissage non supervisé 
  • L'apprentissage par renforcement

Supervisé 

 

  • Apprendre à partir d'exemples

 

Exemple:

  • Un étudiant passe un examen
    • Regarde les erreurs
    • Regarde les bonnes réponses
    • Apprend à répondre correctement à ces questions

 

Apprentissage

Non supervisé 

Exemple :

  • Apprendre à jongler par soi-même
    • Lancer les boules
    • Tenter de les rattraper
    • Ajuster sa technique 
    • Relancer les boules

 

Apprentissage

Par renforcement

 

Exemple :

 

  • Soldat en territoire inconnu 
    • Etre le plus efficace 
    • Propre expérience

Apprentissage

Algorithme

  • Q-Leatning

  • Sarsa

  • Exemple

  • Comparaison

Q-Learning

  • Etape:
    • Commence a l'etat 1
    • Effectue l'action 1
    • Obtient une récompense 
    • termine la récompense maximale
    • met à jour son état et passe à 2

Sarsa

  • Etape:
    • Commence à l'etat 1
    • Effectue l'action 1
    • Obtient une récompense 
    • Commence à l'etat 2
    • Effectue l'action 2

Exemple

Mouse Vs Cliff

Q-Learning

  • Le mécanisme d'exploration 
  • Stratégie de contrôle optimale :
    • Le long de la falaise

Sarsa

  • Le mécanisme réel
  • Stratégie la plus sure :
    • Le long du mur

Comparaison

Conclusion

Merci