Contrôle et Apprentissage

Composante
École Nationale Supérieure d'Électrotechnique d'Électronique d'Informatique d'Hydraulique et des Télécommunications

Objectifs

Modéliser un problème de décision séquentielle à l’aide d’un Processus de Décision Markovien (MDP)
Comprendre et exploiter les équations de Bellman pour caractériser une politique optimale
Résoudre des problèmes de contrôle optimal avec modèle connu via des algorithmes de planification (Value Iteration, Policy Iteration)
Apprendre une politique optimale sans modèle explicite en utilisant des méthodes de Apprentissage par renforcement (Monte Carlo, TD-learning, Q-learning)
Appréhender les limites des approches tabulaires et introduire des méthodes d’approximation de fonction
Comprendre les principes fondamentaux du Deep Reinforcement Learning, notamment à travers DQN
Identifier et analyser des cadres avancés, tels que les bandits multi-bras et le RL multi-agents