Josiane Mothe

Professeur - Système d'information, Big Data, Recherche d'information, Exploration d'information et Apprentissage automatique

Téléphone : +33(0)5 61 55 64 44
Mail : mothe [arobase] irit [point] fr
Institut de recherche en Informatique de Toulouse (IRIT) / équipe SIG
118, Route de Narbonne
31062 Toulouse Cedex 04

Propositions de thèses, stages et post-doc

Post-doc : recherche d'information, data mining et machine learning.

Thèse : apprentissage profond, apprentissage automatique, appliqué aux domaines médical et agriculture, sécurité, fouille de réseaux sociaux.

Stages (bac+2, L, M) : Stages en lien ou non avec des entreprises dans les thèmes de la recherche d'information, la fouille de données, l'apprentissage automatique, réseaux de neurones, intelligence artificielle, machine learning appliqués.

Intéressé-e par ces thèmes ?
=> Merci de m'envoyer vos CV par mail.

La thématique générale est centrée sur la recherche d’information à partir d’information textuelle, semi-structurée ou non structurée, et d'images. Les modèles, méthodes et développements mis au point visent un accès contextuel à l’information brute ou élaborée, pertinente pour les utilisateurs. Les problématiques sous-jacentes concernent la représentation de l’information en particulier dans une visée sémantique, la gestion de la variété des informations et de leur dynamique, couplée au volume, la définition des caractéristiques des contextes et leur reconnaissance, l’adaptation des processus de recherche au contexte, l’élaboration d’information par agrégation en utilisant des méthodes d’analyse exploratoire multi-dimensionnelle ainsi que des méthodes d'apprentissage automatique, incluant les méthodes d'apprentissage profond.

Ces travaux mettent en œuvre des systèmes de RI fondés sur des modèles théoriques. Nous avons ainsi proposé des Modèles adaptatifs qui tiennent compte du contexte en nous appuyant sur des approches fouille de données et apprentissage automatique.

L’ensemble des travaux est validé via une importante démarche d’évaluation expérimentale dans le cadre de campagnes d’évaluation internationales de référence qui mettent à disposition des collections de référence de données volumineuses, soit dans des tâches de RI (TREC-Text REtrieval Conference, CLEF-Cross Language Evaluation Forum, INEX-INitiative for the Evaluation of XML retrieval), soit dans des tâches de recommandation d’information (Challenge RecSys, challenge Yandex). Parallèlement, nous validons nos modèles dans des cadres soumis par des industriels ou des organismes publics sur des problèmes originaux, en particulier dans le cadre de projets Européens.

Evolution thématique

Mon activité scientifique peut se découper en cinq périodes :

2017 à ce jour :

Je continue les collaborations en linguistiques et mathématiques, et au niveau international en recherche d’information [8]. Dans le projet H2020 PREVISION par exemple, nous avons développé des méthodes pour détecter automatiquement la radicalisation dans des textes. J'ai débuté des travaux pour la fouille d'mages [5], les projets Européens InnEO "Space_PhD" (observation de la Terre), UNIVERSEH (observation de l'espace) et AI4AGRI (développement de l'agriculture) visent aussi à résoudre ce challenge. Le défi Région Observatoire de la Terre et Territoires en transition que je co-porte a une visée régionale et multidisciplinaire. Les collaborations dans le domaine médical pour l’analyse d’images de cancer et de traumatismes crâniens vont dans le même sens. Les défis scientifiques que je vise à résoudre sont d’une part la combinaison texte-image, d’autre part les liens entre images spatiales et images médicales dans leur traitement et les challenges spécifiques à résoudre.

2010-2016 :

Sans arrêter les collaborations avec les linguistes, j’ai débuté des collaborations avec des chercheurs en mathématiques. Mes recherches s’orientent vers l’analyse de données pour l’accès à l’information que j’intègre dans les systèmes de recommandation et les systèmes de recherche d’information. Les données que je manipule sont variées: logs de connexions, données du web, données des réseaux sociaux et en particulier de twitter, cadre dans lequel j’ai co-dirigé une tâche dans la campagne d’évaluation internationale CLEF. Mes recherches s’intéressent également aux méthodes d’apprentissage, comme les SVM parcimonieux (publication [7]). C’est naturellement, que je m’intéresse aux problèmes spécifiques des Big Data dans les systèmes d’information.

2001-2009 :

Après l’habilitation à diriger des recherches, j’ai débuté des collaborations avec des chercheurs en linguistiques et intégré dans mes travaux la représentation des termes et de la connaissance sous forme d’ontologies. J’ai obtenu plusieurs financements dans ce cadre. J’ai participé à 3 projets Européens grâce à ces compétences acquises pour lesquels j’étais la responsable IRIT (IRAIA, e-Stage et WS-Talk). Par ailleurs, avec un linguiste de mon université nous avons proposé des critères de prédiction de la difficulté des requêtes (publication [6] citée 137 fois sur Google Scholar).

1995-2000 :

Après ma thèse j’ai travaillé sur les documents structurés (SGML puis XML) et proposé de nouvelles représentations des textes, en particulier des documents issus du Web, permettant de les structurer et d’appliquer des méthodes de visualisation OLAP initialement prévues pour des données structurées issues de bases de données relationnelles. J’ai développé le prototype DocCube à ce moment-là (publication [4] citée 104 fois dans Google Scholar).

1991-1994 :

Durant mon DEA et ma thèse, je me suis intéressée à la modélisation de la recherche d’information selon l’approche réseaux de neurones. Cette modélisation issue de l’intelligence artificielle a montré son efficacité sur de petites collections de textes non structurés. Ce type de modélisation revient maintenant en force avec les nouvelles techniques d’apprentissage profond (deep learning)

Adaptation des modèles de recherche d'information aux contextes

Les problématiques portent sur la prise en compte de la diversité des utilisateurs et des besoins d'information et du sens de l’information véhiculée par son contenu textuel. Nos modèles intègrent ses différents aspects.

La considération de la diversité des besoins d’information des utilisateurs et des requêtes s'appuie sur l'adaptation des modèles aux contextes liés en particulier aux centres d’intérêts, préférences, environnement, ou réseaux sociaux des utilisateurs. Nous avons proposé des méthodes d’apprentissage automatique permettant d’adapter les modèles aux contextes rencontrés. Le sens véhiculé par les contenus est pris en compte en s'appuyant sur des ressources existantes ou élicitées (thésaurus, ontologies, méta-données, requêtes passées...).

Les partenariats noués depuis plusieurs années avec des collègues linguistes au niveau national (Laboratoire CLLE de Toulouse) ou international (Université de Perm, Russie et Université de Bucharest, Roumanie) ont conduit à des projets financés, des publications communes et/ou co-encadrement de thèse.

Quelques résultats marquants dans les 5 dernières années :

Fouille de données structurées et non structurées

Mes recherches dans cet axe visent la conception de méthodes et d'outils pour l'extraction et la visualisation d'informations élaborées à partir de données variées, dynamiques et volumineuses.

Le point de départ de l’exploration sont des collections massives, homogènes ou hétérogènes, structurées ou non. Il peut s’agir d’ensemble de documents d’un domaine pour en réaliser la cartographie ou d’autres types de données comme par exemple les performances de différents systèmes répondant à différentes requêtes d’utilisateurs pour en extraire des typologies de systèmes ou de requêtes.

L’analyse implique de représenter les informations puis d’analyser les données pour en extraire des abstractions, des vues globales, permettant d’appréhender la structure des informations analysées, les inter-relations, les éléments clefs et leurs corrélations. Nous mettons en œuvre des scénarii d’exploration d’information et de visualisation d’information ayant des inter-relations.

Ces travaux bénéficient de l’apport de mon partenariat avec les mathématiques : 3 thèses soutenues et co-encadrées et plus de 20 publications co-écrites ainsi que des liens avec des industriels (3 thèses en cours avec Airbus industrie) et des chercheurs internationaux (Italie, Canada, Allemagne, Arménie, Madagascar). Les données fouillées vont de données de capteurs (coopération avec Airbus Defense and Space, 3 thèses co-encadrées), des réseaux sociaux (collaboration avec l’Université d’Arménie, des psychiatres, projet H2020 PREVISION) pour la détection de signaux faibles, de communautés, de comportements atypiques).

Quelques résultats marquants dans les 5 dernières années :

Vers la fouille multimédia appliquée

Plus récemment et à la faveur des projets Européens H2020 FabSpace 2.0 et Ineeo "Space Phd" que j’ai encadrés, puis du projet Horizon Europe AI4AGRI, je me suis intéressée à l’analyse d’images.

Dans ce cadre, j’ai proposé une tâche dans la campagne internationale d’évaluation CLEF dont l’objectif était d’estimer automatiquement la population d’une région géographique à partir d’images. Ce type de tâche nécessite de s’appuyer des méthodes d’apprentissage que je maîtrise grâce à mes recherches passées (publication [11] citée plus de 50 fois sur Google Scholar).

J’ai également initié quelques travaux dans le domaine de la santé et de l'observation de la Terre :

Références utilisées dans cette page