Un papier sur le transport optimal sélectionné à la conférence ECMLPKDD

La European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases s’est tenue à Grenoble, du 19 au 23 septembre 2022. Il s’agit de l’une des principales conférences académiques dans le domaine de l’Apprentissage automatique et de la Gestion des connaissances. Le papier “Learning Optimal Transport Between two Empirical Distributions with Normalizing Flows – Apprentissage du transport optimal entre deux distributions empiriques avec normalisation des flux“, co-écrit par Florentin COEURDOUX (Equipe SCDépartement SI), Nicolas DOBIGEON (Equipe SCDépartement SI, Toulouse INP-ENSEEIHT – AI Research Chair ANITI) et Pierre CHAINAIS (Université de Lille, CNRS, Centrale Lille, CRIStAL) a été sélectionné et soutenu à l’occasion de cette conférence. C’est l’occasion de faire un focus sur la thématique du transport optimal en informatique.

Qu’est-ce que le transport optimal ?

Le transport optimal est un problème ancien qui a été formulé par Monge au XVIIIe siècle. Il consiste à chercher le moyen le plus économique (en temps par exemple) pour transporter des objets entre un ensemble de points de départ et de points d’arrivée. Le transport optimal et les réseaux de neurones sont deux outils importants en apprentissage automatique (machine learning). En particulier, l’apprentissage profond (deep learning) est une technique de machine learning reposant sur le modèle des réseaux de neurones : des dizaines, voire des centaines, de couches de neurones sont empilées pour apporter une plus grande complexité à l’établissement de règles donnant la capacité aux machines d’apprendre automatiquement. Le problème du transport optimal consiste à minimiser et à optimiser les efforts pour arriver d’un point A à un point B et plus précisément, à déplacer des distributions de probabilités. Ce pourrait être appliqué, par exemple, à la génération automatisée d’images ou à la traduction d’un lexique à un autre..

Résumé :

Le transport optimal (OT) fournit des outils efficaces pour comparer et mettre en correspondance des mesures de probabilité. Nous proposons de tirer parti de la flexibilité des réseaux neuronaux pour apprendre un plan de transport optimal. Plus précisément, nous présentons une méthode nouvelle et originale pour traiter le problème du transport d’un ensemble fini d’échantillons associés à une première distribution inconnue sous-jacente vers un autre ensemble fini d’échantillons tirés d’une autre distribution inconnue. Nous montrons qu’une instance particulière de réseaux neuronaux inversibles, à savoir les flux normalisants, peut être utilisée pour approcher, peut être utilisée pour approximer la solution de ce problème d’OT entre une paire de distributions empiriques. Dans ce but, nous proposons de relaxer la formulation de Monge de l’OT en remplaçant la contrainte d’égalité sur la mesure image (push-forward) par la minimisation de la distance de Wasserstein correspondante. L’opérateur push-forward à estimer est alors restreint pour être un flux normalisant qui est entraîné en optimisant la fonction de coût résultante. Cette approche permet de discrétiser la carte de transport comme une composition de fonctions. Chacune de ces fonctions est associée à un sous-flux du réseau, dont la sortie fournit des étapes intermédiaires du transport entre les mesures originales et cibles. Cette discrétisation produit également un ensemble de barycentres intermédiaires entre les deux mesures d’intérêt. Des expériences menées sur des exemples jouets ainsi que sur une tâche difficile de traduction non supervisée démontrent l’intérêt de la méthode proposée. Enfin, quelques expériences montrent que l’approche proposée conduit à une bonne approximation du vrai transport.

Enjeux de cette thématique de recherche à l’avenir ? 

Fournir des résultats à un domaine d’application n’est pas l’objectif premier recherché par cette étude : il s’agit d’un travail de recherche majoritairement théorique et méthodologique. L’apport de l’étude consiste à proposer une méthode efficace pouvant être utilisée dans différents travaux de recherche, en informatique et plus largement. L’aboutissement de ce papier, dont les éléments et le code ont été publiés en open source, permettront à d’autres chercheurs de se saisir des résultats de cette étude. L’idée est que l’apport scientifique à ce problème élémentaire puisse être repris.