Composante
École Nationale Supérieure d'Électrotechnique d'Électronique d'Informatique d'Hydraulique et des Télécommunications
Objectifs
- Modéliser un problème de décision séquentielle à l’aide d’un Processus de Décision Markovien (MDP)
- Comprendre et exploiter les équations de Bellman pour caractériser une politique optimale
- Résoudre des problèmes de contrôle optimal avec modèle connu via des algorithmes de planification (Value Iteration, Policy Iteration)
- Apprendre une politique optimale sans modèle explicite en utilisant des méthodes de Apprentissage par renforcement (Monte Carlo, TD-learning, Q-learning)
- Appréhender les limites des approches tabulaires et introduire des méthodes d’approximation de fonction
- Comprendre les principes fondamentaux du Deep Reinforcement Learning, notamment à travers DQN
- Identifier et analyser des cadres avancés, tels que les bandits multi-bras et le RL multi-agents
Description
CM1 : Introduction – Processus de décision markoviens – Équations de Bellman
CM2 : Planification / RL avec modèle : Itération de la valeur – Itération de politique
CM3 : RL sans modèle : Monte Carlo – Apprentissage TD – Q-learning
CM4 : Approximation et Deep RL : Approximation de fonction – DQN
CM5 : Sujets avancés : Bandits multi-bras – RL multi-agents
TD : Discussion sur la modélisation des MDP et les aspects théoriques
Pré-requis obligatoires
Probabilités et statistiques, optimisation
