AUTEURS – jfsma30ans

Daniel Szer

Ses 2 Articles :

2004 Communication et apprentissage par renforcement pour une équipe d’agents

Mots-clefs : apprentissage par renforcement décentralisé, coordination, coopération, communi-cation

Résumé : Nous présentons un nouvel algorithme d’apprentissage par renforcement pour des sys-tèmes multi-agent coopératifs. Le problème de contrôle est formalisé comme un processus dedécision markovien que nous cherchons à résoudre de manière décentralisée. Pour cela, nousproposons une variante du Q-learning avec communication, à savoir un mécanisme de notiﬁ-cation réciproque.Nous allons introduire le problème de coopération multi-agent et poser un critère d’optima-lité pour la solution souhaitée. Nous allons ensuite présenter l’algorithme de notiﬁcation ré-ciproque, prouver sa convergence et étudier des variantes de l’algorithme qui permettent desstratégies de communication plus ﬂexibles. Nous conclurons avec les performances de l’algo-rithme sur un exemple d’apprentissage précis.

2006 programmation dynamique à base de points pour la résolution des DEC-POMDPs

Daniel Szer François Charpillet

Mots-clefs : contrôle optimal décentralisé, DEC-POMDPs, planification

Résumé : Nous présentons un nouvel algorithme de planification pour la construction de systèmes multi-agents réactifs et situés pouvant se modéliser par des processus de décision de Markov décentralisés (DEC-POMDP). Cet algorithme est fondé sur la programmation dyna- mique à base de points. Il est dérivé de techniques de programmation dynamique optimale utilisées pour résoudre des jeux stochastiques partiellement observables(POSG) et des techniques d'approximation utilisées pour résoudre des POMDP mono-agents. Nous montrons pour la première fois qu'il est possible de déterminer un ensemble d'états de croyance multi-agent pertinents, et nous montrons comment ce calcul permet ensuite d'éviter le recours à la program- mation linéaire très couteuse dans le cas multi-agent. Nous détaillons une version exacte et une version approximative de notre algorithme, et nous montrons son efficacité sur un exemple de la littérature.

INRIA

Vandœuvre-lès-Nancy, France

INRIA

Sophia Antipolis, France