Shirley Hoet

Ses 2 Articles :


Mots-clefs : Apprentissage dans un contexte multi-agent, mémoire, MDP factorisés
Résumé : Dans cet article, nous nous intéressons àla problématique de l’apprentissage parrenforcement dans un cadre multi-agentasynchrone et faiblement couplé. Nousmontrons qu’il est nécessaire de mémoriser des informations sur les actions passées et nous montrons comment factoriser cette information mémorisée pour quel’espace d’états reste praticable en nousappuyant sur le modèle des processus décisionnels de Markov factorisés (FMDP).Nous définissons un mécanisme d’apprentissage qui intègre les actions et les observations passées et nous expliquons comment ce modèle est implanté dans notreplateforme et nous discutons les résultatsattendus.

Mots-clefs : Mémoire,communication,apprentissag
Résumé : L’apprentissage de comportement dans uncontexte multi-agent est un problème difficile,en particulier parce que la prise en compte dela communication avec les autres agents re-quiert la mémorisation d’informations spéci-fiques. Dans cet article, nous présentons les mo-dèles de mémoire existants et nous montronsqu’ils ne permettent pas de gérer l’apprentis-sage de communication. Nous proposons en-suite un modèle de mémoire pour l’apprentis-sage par renforcement des messages de com-mande (request) et de contrôle (query). Ce mo-dèle permet de gérer l’asynchronisme du sys-tème et les attentes de réponses aux messages.Enfin, nous présentons une évaluation de ce mo-dèle sur un exemple simple et nous montronsqu’il construit une politique en un temps raison-nable et avec un espace mémoire réduit.