Cadre, Dates, Partenaires, Objectifs,
Cadre
Projets TCAN 2004 (Traitement des connaissances, apprentissage et NTIC .
Debut du projet : 01 juillet 2004 Date de dernière mise à jour : Oct. 2004
Partenaires
Responsable du projet
Participants : Josiane Mothe (Porteur du projet), Mohand Boughanem, Eliz Pastutmaz (DEA), Désiré Kompaoré (Thèse), Cécile Laffaire,
Participant : Nathalie Aussenac-Gilles
Participants : Ludovic Tanguy (co resp.), Didier Bourigault, Anne Condamines, Cécile Fabre, Nabil Hathout
Dates
Fin du projet : 30 juin 2006
Les études dans le domaine de la Recherche d'Information (RI) visent à proposer des modèles et des principes permettant de retrouver automatiquement les informations susceptibles de répondre à un besoin exprimé par un utilisateur en évitant de lui fournir des informations non pertinentes. Un processus de RI comprend différentes étapes bien identifiées (représentation des documents, représentation de la requête, mise en correspondance de ces représentations, présentation des résultats). Ces mécanismes sont évalués aux travers de grands programmes internationaux d’évaluation tels que TREC ou CLEF . Dans le cas des documents textuels, une problématique actuelle concerne la place et le rôle des techniques linguistiques dans cette chaîne de traitement. Intuitivement, des traitements plus sémantiques des informations doivent permettre d’améliorer l’efficacité des moteurs de recherche et donc la satisfaction des utilisateurs. L’apport des techniques linguistiques par rapport à des techniques moins riches dans la prise en compte de la sémantique n’a pas, à ce jour, été démontré de façon claire. Une des raisons en est que ces évaluations sont réalisées de façon globale, c'est-à-dire que les résultats sont obtenus en calculant des performances moyennes sur un grand ensemble de requêtes. Les variations de formulation qui pourraient être repérées par une analyse linguistique ne sont pas prises en compte ; pourtant ces variations fournissent des indicateurs sur les résultats attendus et sur les traitements linguistiques les plus appropriés pour une requête particulière. Il serait alors possible d'adapter un système de RI pour une meilleure satisfaction de l'utilisateur.
Ce projet vise donc à étudier différentes techniques et ressources linguistiques pour la définition d’un système qui s’adapte à l’expression des besoins formulés par l'utilisateur. Nous nous intéresserons plus particulièrement à la RI en langue française, moins étudiée que l'anglais par la communauté de RI, mais plus prometteuse de par la spécificité de ses mécanismes (morphologiques notamment).
Plus précisément, les objectifs du projet sont :
- l’évaluation des différents traitements linguistiques (niveau morphologique, syntaxique, lexical) en étudiant précisément les phénomènes locaux mis en jeu dans les documents, et leur influence sur les performances de recherche,
- l’identification et le repérage automatisé des différents types d’expression des besoins en RI,
- la définition d’un système de RI s’adaptant aux expressions des besoins,
- l’évaluation à grande échelle via la participation au programme d’évaluation CLEF
Ainsi, cette problématique se situe au croisement de deux disciplines : la RI et la linguistique. Un atout majeur de ce projet réside dans le fait que les participants à ce projet ont des compétences complémentaires dans ces deux domaines. D'autre part, les outils et méthodes qu’ils ont développés de façon indépendante seront mis en commun. Cette mise en commun et leur combinaison pour la RI ont déjà débuté au travers du projet RFIEC , plate forme pour la RI, l'extraction des connaissances et la veille stratégique.
et de différentes expérimentations ponctuelles. Les résultats de ce projet seront mis à disposition pour la communauté scientifique sur cette plate-forme.
Description
générale du projet:
J. Mothe
Université Paul Sabatier TOULOUSE III
IRIT - SIG
118,
Route de Narbonne
31 062 Toulouse CEDEX FRANCE
Tel : (33/0)5 61 55 64 44