Olivier Buffet

Son article :

Mots-clefs : processus décisionnels de Markov, agents réactifs, apprentissage par renforcement,apprentissage progressif, coordination, coopération
Résumé : Nous proposons une nouvelle méthodologie d’apprentissage par renforcement (AR)pour la conception de systèmes multi-agents réactifs. Bien que le cadre réaliste d’agents situésavec des perceptions locales sorte du cadre théorique de convergence des algorithmes clas-siques d’apprentissage par renforcement, notre méthode permet à chaque agent d’apprendreindividuellement et localement son comportement. L’aspect progressif de notre algorithme quimet les agents en présence de sous-tâches de plus en plus complexes permet de dépasser leslimitations classiques de l’AR dans ce contexte. Notre méthodologie, qui se veut générale, estvalidée en simulation sur un problème où les agents doivent se coordonner pour atteindre unbut global.