|
|
|
|
Recherche XML
Les éléments qui constituent un besoin d'information auquel notre méthode veut répondre sont :
- le contenu recherché et éventuellement celui non recherché c'est-à-dire la possibilité d'indiquer les concepts souhaités et les concepts non souhaités,
- les structures des éléments dans lesquels le contenu est recherché c'est-à-dire la possibilité d'indiquer la localisation des concepts recherchés dans la structure hiérarchique d'un document,
- la structure des éléments à restituer c'est-à-dire la possibilité d'indiquer la granularité des éléments recherchés voire leur localisation dans la hiérarchie d'un document.
Comme dans tout principe de Recherche d'Information (RI), l'objectif est de définir une méthode qui permette de retrouver les éléments de la collection qui répondent au mieux au besoin d'information exprimé par l'utilisateur sans exiger la vérification stricte des indications.
| |
|
|
|
|
Moteur de Recherche
La méthode de recherche est principalement basée sur la représentation des éléments XML et des requêtes sous forme de vecteurs. La correspondance entre requête et élément XML n'est pas basée sur une mesure de similarité 'classique'. Elle s'appuie plutôt sur la contribution directe des concepts définissant la requête modulée en fonction de l'importance du concept dans la requête et éventuellement d'autres éléments tels que des contraintes structurelles.
- Indexation : Les concepts représentatifs des documents sont extraits automatiquement des éléments possédant un contenu textuel avec leur localisation dans chaque document XML. L'extraction de concepts met en oeuvre notamment la suppression des mots vides et des traitements optionnels comme la radicalisation. Un processus d'extraction automatique similaire est défini avec extraction également des indications relatives à la structure XML.
- Appariement : Une fonction de score estime la correspondance entre la représentation d'un élément XML et une requête selon trois facteurs :
- l'importance de chaque terme de la requête dans l'élément XML,
- l'importance de chaque terme dans la requête,
- le niveau global de représentation de la requête dans l'élément XML.
- Propagation : La propagation des scores permet de prendre en compte la structure hiérarchique des documents XML. L'hypothèse est qu'un élément XML contenant un composant sélectionné comme pertinent est aussi pertinent et qu'il est d'autant plus pertinent qu'il contient plusieurs composants pertinents. Le score d'un composant sélectionné est répercuté sur les éléments qu'il compose.
|
|
|
|
|
| |
|
|
|
|
|
|
|
|
|
|
Quelques Publications
- G. Hubert. XML Retrieval Based on Direct Contribution of Query Components.
4th International Workshop of the Initiative for the Evaluation of XML Retrieval, INEX 2005, Dagstuhl Castle, Germany, LNCS 3977, Springer-Verlag, p. 172-186, 2006.
http://dx.doi.org/10.1007/11766278_13
- K. Englmeier, G. Hubert, J. Mothe. Distinguer les requêtes pour améliorer la recherche d'information XML. CORIA 2006, Lyon, p. 41-52, 2006
- G. Hubert. A voting method for XML retrieval. Advances in XML Information Retrieval: Third International Workshop of the Initiative for the Evaluation of XML Retrieval, INEX 2004, LNCS 3493, Dagstuhl, Germany, Springer-Verlag GmbH, p. 183-196, 2005.
- G. Hubert, J. Mothe, S. Poulain. Recherche d'information XML utilisant un principe de vote. Conférence en Recherche d'Information et Applications (CORIA), Grenoble, p. 151-166, 2005.
|
|
|
Participation aux programmes d'évaluation
|
|
|
|
|
|
|
|
|
| |