• Composante

    École Nationale Supérieure d'Électrotechnique d'Électronique d'Informatique d'Hydraulique et des Télécommunications

Objectifs

  • Modéliser un problème de décision séquentielle à l’aide d’un Processus de Décision Markovien (MDP) 
  • Comprendre et exploiter les équations de Bellman pour caractériser une politique optimale 
  • Résoudre des problèmes de contrôle optimal avec modèle connu via des algorithmes de planification (Value Iteration, Policy Iteration) 
  • Apprendre une politique optimale sans modèle explicite en utilisant des méthodes de Apprentissage par renforcement (Monte Carlo, TD-learning, Q-learning) 
  • Appréhender les limites des approches tabulaires et introduire des méthodes d’approximation de fonction 
  • Comprendre les principes fondamentaux du Deep Reinforcement Learning, notamment à travers DQN 
  • Identifier et analyser des cadres avancés, tels que les bandits multi-bras et le RL multi-agents 
Lire plus

Description

CM1 : Introduction – Processus de décision markoviens – Équations de Bellman

CM2 : Planification / RL avec modèle : Itération de la valeur – Itération de politique

CM3 : RL sans modèle : Monte Carlo – Apprentissage TD – Q-learning

CM4 : Approximation et Deep RL : Approximation de fonction – DQN

CM5 : Sujets avancés : Bandits multi-bras – RL multi-agents

TD : Discussion sur la modélisation des MDP et les aspects théoriques

Lire plus

Pré-requis obligatoires

Probabilités et statistiques, optimisation

Lire plus