Partenaires



Rechercher



Accueil du site > Français > Thèmes de recherche > Thème 2 - Indexation et recherche d’informations > Équipe SIG > Les 4 composantes > SIG-DDSS : Documents, Données Semi-Structurées et usages

SIG-DDSS : Documents, Données Semi-Structurées et usages

La problématique de cette composante s’articule autour de deux volets : (1) la modélisation et la manipulation flexible de documents et (2) la modélisation des usagers dans leur activité documentaire ainsi que les mécanismes de manipulation et d’exploration de documents. Le premier volet correspond à la problématique liée à la (Méta)Modélisation et la manipulation flexibles de documents et données semi-structurées. Ce champ d’activité s’intéresse à la description de structures et contenus de documents, par des mécanismes de spécification ou d’élicitation, éventuellement supportés par l’annotation via des métadonnées. Trois raisons importantes font de la description de documents une tâche complexe :

  • la méconnaissance a priori de la (des) structure(s) sous-jacente(s) des collections et des instances,
  • la « non-structuration » (ou au mieux la « semi-structuration ») des documents et le manque de structures régulières,
  • l’organisation des documents dans une dimension spatiale intra et inter-document, intra et inter-collection, et différentes dimensions temporelles, introduisant de fait une multi-structuralité complexe à modéliser.

Le principe d’annotation sur lequel repose ces travaux vise l’élicitation de documents. Le caractère semi-structuré des documents et l’hétérogénéité des formats et des contenus imposent un traitement préalable pour homogénéiser les structures de représentation et de description de ces documents. Nous faisons appel pour cela aux différents noyaux génériques de réécriture, d’indexation et de segmentation, développés au sein de l’équipe, dont le principe consiste à reconnaître les éventuels éléments de structure et informations sur le format et le contenu du document. Les points forts de cette approche consistent d’abord à ne pas imposer de niveau structurel d’analyse, ni de vocabulaire, et ensuite à spécifier un balisage sémantique de manière standard sans imposer de niveau de granularité a priori.

L’objectif dans le traitement des requêtes n’est pas nécessairement de fournir une réponse « exacte » comme dans les systèmes de gestion de bases de données, mais d’un positionnement sur (ou d’une localisation de) l’information susceptible de répondre au besoin en information, selon un degré évalué en fonction de différents paramètres (profil, préférences, contexte...). L’introduction des techniques floues dans les opérateurs spatiaux ou temporels permet de gérer la flexibilité dans l’exploration de collections de graphes partiels de documents, de requêtes, afin d’éviter des réponses vides. La proposition d’un modèle flexible de traitement de requêtes adapté aux documents semi-structurés et au raisonnement qualitatif humain, en prenant en compte non seulement le contenu, mais aussi la structure de ces documents, a été implanté. L’originalité dans la mise en oeuvre de fonctions de similitude réside dans sa capacité à intégrer les exigences de l’analyse exploratoire de grandes bases de documents basée sur les principes de description multidimensionnels, intégrant la multi-structuralité qui en découle (structure logique, sémantique, temporelle, spatiale...).

Le deuxième volet de la problématique consiste à étudier les mécanismes de manipulation et d’exploration de ces collections, en fonction notamment de profils d’analyse et d’usages, intégrant la formulation de préférences et de nuances dans la spécification du besoin en information ainsi que des indicateurs liée à l’activité documentaire.

Pour ce faire, nos activités s’intéressent à la relation « usagers-information » tant au niveau individuel que collectif afin d’améliorer l’accès à l’information disponible. Les principales orientations de recherche sont :

  • la conception de (meta)modèles d’usagers intégrant notamment la notion contexte (environnement physique, numérique, social, utilisateur, services accessibles...) et la possibilité de les échanger entre systèmes (interopérabilité) même si ceux-ci sont hétérogènes. Ces travaux sont notamment réalisés en collaboration avec des chercheurs en sciences cognitives ;
  • la définition d’indicateurs, de métriques et de méthodes liés aux activités des usagers (telles que l’annotation textuelle, la mesure d’un consensus dans un débat argumentatif induit par une annotation, une mesure d’usage des documents ou encore des méthodes de synthèse des « espaces personnels d’informations » tels que les tags, les arborescences de fichiers...) mais aussi à la dimension sociale de ces usagers pouvant servir de base à l’alimentation de ces modèles ;
  • l’intégration et l’utilisation de ces modèles dans la définition de processus visant l’amélioration des tâches documentaires telles que les interfaces pour l’accès à l’information, des mécanismes d’adaptation et/ou de personnalisation de l’information présentée à l’usager.

Validation et prototypes

Les travaux de la composante ont donné lieu à différents prototypes notamment TafAnnote qui reprend et étend le prototype Easy-DoR avec l’exploitation des annotations textuelles, le projet SISSI qui vise à simplifier les services Internet d’accès à l’information... Un prototype spécifique à la modélisation et à l’interopérabilité de modèles usagers a été également développé.

Les différents prototypes développés dans la composante SIG-DDSS sont illustrés dans les copies d’écran suivantes.

[1] Une vue synthétique du prototype TafAnnote, qui est une barre d’outils pour le navigateur Mozilla Firefox, avec ses principales fonctionnalités. Ce prototype est utilisable et accessible en ligne.

Cette activité de prototypage s’est accompagnée de phases d’expérimentations pour valider la notion de consensus dans les débats argumentatifs.

[2] Interface multi-facettes, intégrée à TafAnnote, permettant d’explorer le capital informationnel d’un groupe d’utilisateurs sur la base de leur espace personnel d’informations. Elle intègre à la fois le niveau microscopique (de chaque usager) et le niveau macroscopique (des différents groupes et de l’organisation dans son ensemble). Différents points de vue sur l’information capitalisés sont offerts dans cette interface.

[3] Une copie d’écran du prototype permettant la définition flexible de modèles usagers interopérables.
[4] Le prototype Système d’Adaptation de Document d’Entreprise est un prototype expérimental d’interface utilisateur permettant d’accéder de manière adaptée à une base de documents. Le prototype permet : de définir graphiquement une requête (conditions, résultats attendus), d’obtenir la version XQuery de la requête et son résultat, d’adapter le résultat en fonction de centres d‘intérêts de l’utilisateur. Les centres d’intérêts sont représentés dans un profil. L’adaptation est réalisée en reformulant la requête de l’usager avant son évaluation et vise principalement un ordonnancement particulier des résultats pour chaque utilisateur. Le prototype met aussi en œuvre des mécanismes de mise à jour du profil utilisateur en fonction des requêtes posées au système. Ce prototype, issu d’un travail de thèse, a été utilisé pour réaliser des expérimentations visant à la validation de mécanismes d’adaptation et de mise à jour des profils utilisateurs.
[5] L’éditeur Lambda est issu d’un projet de recherche financé par l’Union Européenne - programme IST - 2001-37139 - ayant pour objectif de créer un système intégré d’écriture et de lecture de documents mathématiques à l’usage des étudiants non voyants.

Pour faciliter l’accès à l’information mathématique (formule mathématiques) et donc aux études scientifiques pour les handicapés visuels, il a été développé et étudié une méthode de linéarisation de l’information mathématique ainsi que la création d’un logiciel permettant d’éditer et de lire cette information. En effet, chaque pays a développé un code Braille (6 ou 8 points) et une méthode de linéarisation spécifique qui rend l’information mathématique Braille illisible d’un pays à l’autre. Nous avons réalisé un code Lambda unifié permettant de coder de manière unique l’information mathématique et de déléguer au module d’édition le soin de présenter l’information sous la représentation Braille connue de l’utilisateur, et sous forme graphique traditionnelle (à l’aide d’une transformation en MathML) pour un professeur voyant par exemple.