Josiane Mothe

La thématique générale est centrée sur la recherche d’information à partir d’information textuelle, semi-structurée ou non structurée, et d'images. Les modèles, méthodes et développements mis au point visent un accès contextuel à l’information brute ou élaborée, pertinente pour les utilisateurs. Les problématiques sous-jacentes concernent la représentation de l’information en particulier dans une visée sémantique, la gestion de la variété des informations et de leur dynamique, couplée au volume, la définition des caractéristiques des contextes et leur reconnaissance, l’adaptation des processus de recherche au contexte, l’élaboration d’information par agrégation en utilisant des méthodes d’analyse exploratoire multi-dimensionnelle ainsi que des méthodes d'apprentissage automatique, incluant les méthodes d'apprentissage profond.

Ces travaux mettent en œuvre des systèmes de RI fondés sur des modèles théoriques. Nous avons ainsi proposé des Modèles adaptatifs qui tiennent compte du contexte en nous appuyant sur des approches fouille de données et apprentissage automatique.

L’ensemble des travaux est validé via une importante démarche d’évaluation expérimentale dans le cadre de campagnes d’évaluation internationales de référence qui mettent à disposition des collections de référence de données volumineuses, soit dans des tâches de RI (TREC-Text REtrieval Conference, CLEF-Cross Language Evaluation Forum, INEX-INitiative for the Evaluation of XML retrieval), soit dans des tâches de recommandation d’information (Challenge RecSys, challenge Yandex). Parallèlement, nous validons nos modèles dans des cadres soumis par des industriels ou des organismes publics sur des problèmes originaux, en particulier dans le cadre de projets Européens.

Mon activité scientifique peut se découper en cinq périodes :

2017 à ce jour :

Je continue les collaborations en linguistiques et mathématiques, et au niveau international en recherche d’information [8]. Dans le projet H2020 PREVISION par exemple, nous avons développé des méthodes pour détecter automatiquement la radicalisation dans des textes. J'ai débuté des travaux pour la fouille d'mages [5], les projets Européens InnEO "Space_PhD" (observation de la Terre), UNIVERSEH (observation de l'espace) et AI4AGRI (développement de l'agriculture) visent aussi à résoudre ce challenge. Le défi Région Observatoire de la Terre et Territoires en transition que je co-porte a une visée régionale et multidisciplinaire. Les collaborations dans le domaine médical pour l’analyse d’images de cancer et de traumatismes crâniens vont dans le même sens. Les défis scientifiques que je vise à résoudre sont d’une part la combinaison texte-image, d’autre part les liens entre images spatiales et images médicales dans leur traitement et les challenges spécifiques à résoudre.

2010-2016 :

Sans arrêter les collaborations avec les linguistes, j’ai débuté des collaborations avec des chercheurs en mathématiques. Mes recherches s’orientent vers l’analyse de données pour l’accès à l’information que j’intègre dans les systèmes de recommandation et les systèmes de recherche d’information. Les données que je manipule sont variées: logs de connexions, données du web, données des réseaux sociaux et en particulier de twitter, cadre dans lequel j’ai co-dirigé une tâche dans la campagne d’évaluation internationale CLEF. Mes recherches s’intéressent également aux méthodes d’apprentissage, comme les SVM parcimonieux (publication [7]). C’est naturellement, que je m’intéresse aux problèmes spécifiques des Big Data dans les systèmes d’information.

2001-2009 :

Après l’habilitation à diriger des recherches, j’ai débuté des collaborations avec des chercheurs en linguistiques et intégré dans mes travaux la représentation des termes et de la connaissance sous forme d’ontologies. J’ai obtenu plusieurs financements dans ce cadre. J’ai participé à 3 projets Européens grâce à ces compétences acquises pour lesquels j’étais la responsable IRIT (IRAIA, e-Stage et WS-Talk). Par ailleurs, avec un linguiste de mon université nous avons proposé des critères de prédiction de la difficulté des requêtes (publication [6] citée 137 fois sur Google Scholar).

1995-2000 :

Après ma thèse j’ai travaillé sur les documents structurés (SGML puis XML) et proposé de nouvelles représentations des textes, en particulier des documents issus du Web, permettant de les structurer et d’appliquer des méthodes de visualisation OLAP initialement prévues pour des données structurées issues de bases de données relationnelles. J’ai développé le prototype DocCube à ce moment-là (publication [4] citée 104 fois dans Google Scholar).

1991-1994 :

Durant mon DEA et ma thèse, je me suis intéressée à la modélisation de la recherche d’information selon l’approche réseaux de neurones. Cette modélisation issue de l’intelligence artificielle a montré son efficacité sur de petites collections de textes non structurés. Ce type de modélisation revient maintenant en force avec les nouvelles techniques d’apprentissage profond (deep learning)

Les problématiques portent sur la prise en compte de la diversité des utilisateurs et des besoins d'information et du sens de l’information véhiculée par son contenu textuel. Nos modèles intègrent ses différents aspects.

La considération de la diversité des besoins d’information des utilisateurs et des requêtes s'appuie sur l'adaptation des modèles aux contextes liés en particulier aux centres d’intérêts, préférences, environnement, ou réseaux sociaux des utilisateurs. Nous avons proposé des méthodes d’apprentissage automatique permettant d’adapter les modèles aux contextes rencontrés. Le sens véhiculé par les contenus est pris en compte en s'appuyant sur des ressources existantes ou élicitées (thésaurus, ontologies, méta-données, requêtes passées...).

Les partenariats noués depuis plusieurs années avec des collègues linguistes au niveau national (Laboratoire CLLE de Toulouse) ou international (Université de Perm, Russie et Université de Bucharest, Roumanie) ont conduit à des projets financés, des publications communes et/ou co-encadrement de thèse.

Quelques résultats marquants dans les 5 dernières années :

Développement d'un système de RI traitant de l'Amharic, utilisant des extensions de requêtes basées sur un modèle d'apprentissage profond et la base de données lexicale WordNet [1]. En collaboration à l'Université d'Addis-Abeba sur ce thème avec Pr. Y. Assabie, au travers d'une thèse.
Enquête sur les méthodes analytiques permettant de comprendre l'efficacité de la recherche d'information [2].
Brevet Européen (2019, publication n°EP3771996A1, Information Retrieval Device and Method Using a set of Search configurations pre-selected using efficiency and risk functions) [4].
Développement d’un modèle global de RI contextuel qui s’appuie sur plusieurs cœurs de recherche d’information et choisi automatiquement le plus adapté à la requête en cours. Nous avons collaboré avec J. Y. Nie que nous avons également invité sur 1 mois en 2019 via une bourse de l’université et publié un modèle affiné [6].
Définition et évaluation d’un modèle de prédiction de la difficulté d’une requête pour un moteur de recherche [7]. J’ai établi une collaboration avec l’université d’Udine sur ce thème avec Pr. S. Mizzaro que j’ai accueilli pour un séjour en 2018 [8].

Mes recherches dans cet axe visent la conception de méthodes et d'outils pour l'extraction et la visualisation d'informations élaborées à partir de données variées, dynamiques et volumineuses.

Le point de départ de l’exploration sont des collections massives, homogènes ou hétérogènes, structurées ou non. Il peut s’agir d’ensemble de documents d’un domaine pour en réaliser la cartographie ou d’autres types de données comme par exemple les performances de différents systèmes répondant à différentes requêtes d’utilisateurs pour en extraire des typologies de systèmes ou de requêtes.

L’analyse implique de représenter les informations puis d’analyser les données pour en extraire des abstractions, des vues globales, permettant d’appréhender la structure des informations analysées, les inter-relations, les éléments clefs et leurs corrélations. Nous mettons en œuvre des scénarii d’exploration d’information et de visualisation d’information ayant des inter-relations.

Ces travaux bénéficient de l’apport de mon partenariat avec les mathématiques : 3 thèses soutenues et co-encadrées et plus de 20 publications co-écrites ainsi que des liens avec des industriels (3 thèses en cours avec Airbus industrie) et des chercheurs internationaux (Italie, Canada, Allemagne, Arménie, Madagascar). Les données fouillées vont de données de capteurs (coopération avec Airbus Defense and Space, 3 thèses co-encadrées), des réseaux sociaux (collaboration avec l’Université d’Arménie, des psychiatres, projet H2020 PREVISION) pour la détection de signaux faibles, de communautés, de comportements atypiques).

Quelques résultats marquants dans les 5 dernières années :

Comparaison de modèles d'apprentissage profond à des fins de détection de dépression précoce à partir de publications sur les réseaux sociaux [3].
Définition d’une méthodologie d’exploration de réseaux sociaux afin d’en détecter les communautés. Ce travail a été réalisé dans le cadre d’une collaboration avec l’université d’Arménie après un échange Erasmus+ dans les deux sens [5].
Modèle pour la prédiction de la diffusion de posts sur les réseaux sociaux sur la base d’apprentissage automatique. La collection de données que nous avons constituée est en accès sur Zenodo [9].
Modèle pour la détection de la dépression dans les réseaux sociaux sur la base ses posts envoyés par les utilisateurs et des caractéristiques linguistiques [10].
Les résultats de mes recherches et leur reconnaissance ont permis de décrocher un projet H2020 (PREVISION, 2019-2021) dans le domaine de la détection de comportements atypiques sur les médias collaboratifs (détection de radicalisation, de trafic d’œuvre d’art).

Plus récemment et à la faveur des projets Européens H2020 FabSpace 2.0 et Ineeo "Space Phd" que j’ai encadrés, puis du projet Horizon Europe AI4AGRI, je me suis intéressée à l’analyse d’images.

Dans ce cadre, j’ai proposé une tâche dans la campagne internationale d’évaluation CLEF dont l’objectif était d’estimer automatiquement la population d’une région géographique à partir d’images. Ce type de tâche nécessite de s’appuyer des méthodes d’apprentissage que je maîtrise grâce à mes recherches passées (publication [11] citée plus de 50 fois sur Google Scholar).

J’ai également initié quelques travaux dans le domaine de la santé et de l'observation de la Terre :

Deux thèses co-encadrées (2017, 2019) en lien avec la détection automatique de cancer à partir d’images (collaboration avec l’Oncopôle de Toulouse), et une thèse encadrée (2022) en lien avec le suivi de déforestation à partir de données d'observation de la Terre.
Discussion sur le suivi des patients traumatisé crâniens avec le CHU de Toulouse (2018).
Participation au jury (et suivi) d’une thèse de médecine en psychiatrie sur la fouille des réseaux sociaux et la possible stigmatisation des maladies psychiatriques.

[1] Yeshambel, T., Mothe, J. & Assabie, Y. (2022). Amharic Semantic Information Retrieval System. Communications in Computer and Information Science (CCIS), 1608, 22-44. Springer.
[2] Mothe, J. (2022). Analytics Methods to Understand Information Retrieval Effectiveness - A Survey. Mathematics, 10 (12), 2135. MDPI.
[3] Mothe, J., Ramiandrisoa, F., & Ullah, M. Z. (2022). Comparison of machine learning models for early depression detection from users’ posts. Studies in Computational Intelligence book series (SCI), 1018, 11-139. Springer.
[4] Mothe, J., Ullah, M. Z., (2019), Information Retrieval Device and Method Using a set of Search configurations pre-selected using efficiency and risk functions. Brevet Européen, publication n°EP3771996A1.
[5] Haroutunian, M., Mkhitaryan, K., & Mothe, J. (2019). A New Information-Theoretical Distance Measure for Evaluating Community Detection Algorithms. Journal of Universal Computer Science, 25 (8), 887-903. J.UCS.
[6] Deveaud, R., Mothe, J., Ullah, M. Z., & Nie, J. Y. (2018). Learning to Adaptively Rank Document Retrieval System Configurations. ACM Transactions on Information Systems (TOIS), 37 (1), 3. ACM.
[7] Chifu, A. G., Laporte, L., Mothe, J., & Ullah, M. Z. (2018). Query performance prediction focused on summarized letor features. In The 41st International ACM SIGIR Conference on Research & Development in Information Retrieval, 1177-1180. ACM.
[8] Mizzaro, S., Mothe, J., Roitero, K., & Ullah, M. Z. (2018). Query performance prediction and effectiveness evaluation without relevance judgments: Two sides of the same coin. In The 41st International ACM SIGIR Conference on Research & Development in Information Retrieval, 1233-1236. ACM.
[9] Hoang, T. B. N., & Mothe, J. (2018). Predicting information diffusion on Twitter - Analysis of predictive features. Journal of computational science, 28, 257-264. Elsevier.
[10] Ramiandrisoa, F., Mothe, J., Benamara, F., & Moriceau, V. (2018). IRIT at e-Risk 2018. In CLEF (Working Notes).
[11] Ionescu, B., Müller, H., Villegas, M., Arenas, H., Boato, G., Dang-Nguyen, D. T., ... & Islam, B. (2017, September). Overview of ImageCLEF 2017: Information extraction from images. In International Conference of the Cross-Language Evaluation Forum for European Languages, 315-337. Springer.