Composante Recherche d'Information - Exploration et Visualisation d'Information


Recherche d’information pour les documents structurés XML


English version

Contacts: G. Hubert (Maître de Conférences)

L'utilisation du langage XML (eXtensible Markup Language) est de plus en plus répandue notamment pour les publications à caractère scientifique. Ainsi, certains systèmes de Recherche d'Information (RI) évoluent pour intégrer l'exploitation de la structure des documents et combiner recherche textuelle et recherche structurelle. Les systèmes de RI gèrent généralement des documents entiers, c'est-à-dire que l'unité d'indexation et de recherche sont les documents entiers. Des travaux se sont également intéressés à retrouver des passages (paragraphes, phrases) dans le cadre de documents non structurés. Dans le cadre de documents structurés, de nouvelles possibilités de recherche sont offertes à l'utilisateur qui peut choisir la granularité qu'il souhaite pour la réponse et indiquer des contraintes structurelles sur les éléments à restituer.

Recherche XML

Les éléments qui constituent un besoin d'information auquel notre méthode veut répondre sont :

  • le contenu recherché et éventuellement celui non recherché c'est-à-dire la possibilité d'indiquer les concepts souhaités et les concepts non souhaités,
  • les structures des éléments dans lesquels le contenu est recherché c'est-à-dire la possibilité d'indiquer la localisation des concepts recherchés dans la structure hiérarchique d'un document,
  • la structure des éléments à restituer c'est-à-dire la possibilité d'indiquer la granularité des éléments recherchés voire leur localisation dans la hiérarchie d'un document.
Comme dans tout principe de Recherche d'Information (RI), l'objectif est de définir une méthode qui permette de retrouver les éléments de la collection qui répondent au mieux au besoin d'information exprimé par l'utilisateur sans exiger la vérification stricte des indications.

Moteur de Recherche

La méthode de recherche est principalement basée sur la représentation des éléments XML et des requêtes sous forme de vecteurs. La correspondance entre requête et élément XML n'est pas basée sur une mesure de similarité 'classique'. Elle s'appuie plutôt sur la contribution directe des concepts définissant la requête modulée en fonction de l'importance du concept dans la requête et éventuellement d'autres éléments tels que des contraintes structurelles.

  • Indexation : Les concepts représentatifs des documents sont extraits automatiquement des éléments possédant un contenu textuel avec leur localisation dans chaque document XML. L'extraction de concepts met en oeuvre notamment la suppression des mots vides et des traitements optionnels comme la radicalisation. Un processus d'extraction automatique similaire est défini avec extraction également des indications relatives à la structure XML.
  • Appariement : Une fonction de score estime la correspondance entre la représentation d'un élément XML et une requête selon trois facteurs :
    • l'importance de chaque terme de la requête dans l'élément XML,
    • l'importance de chaque terme dans la requête,
    • le niveau global de représentation de la requête dans l'élément XML.
  • Propagation : La propagation des scores permet de prendre en compte la structure hiérarchique des documents XML. L'hypothèse est qu'un élément XML contenant un composant sélectionné comme pertinent est aussi pertinent et qu'il est d'autant plus pertinent qu'il contient plusieurs composants pertinents. Le score d'un composant sélectionné est répercuté sur les éléments qu'il compose.

Quelques Publications

  • G. Hubert. XML Retrieval Based on Direct Contribution of Query Components. 4th International Workshop of the Initiative for the Evaluation of XML Retrieval, INEX 2005, Dagstuhl Castle, Germany, LNCS 3977, Springer-Verlag, p. 172-186, 2006.
    http://dx.doi.org/10.1007/11766278_13
  • K. Englmeier, G. Hubert, J. Mothe. Distinguer les requêtes pour améliorer la recherche d'information XML. CORIA 2006, Lyon, p. 41-52, 2006
  • G. Hubert. A voting method for XML retrieval. Advances in XML Information Retrieval: Third International Workshop of the Initiative for the Evaluation of XML Retrieval, INEX 2004, LNCS 3493, Dagstuhl, Germany, Springer-Verlag GmbH, p. 183-196, 2005.
  • G. Hubert, J. Mothe, S. Poulain. Recherche d'information XML utilisant un principe de vote. Conférence en Recherche d'Information et Applications (CORIA), Grenoble, p. 151-166, 2005.

Participation aux programmes d'évaluation

    INEX: INitiative for the Evaluation of Xml retrieval