Composante Recherche d'Information - Exploration et Visualisation d'Information


Recherche d’information et exploration d’information


English version

Contacts: Bernard Dousset, Josiane Mothe

La Découverte de Connaissances à partir de bases de données a été définie comme l'extraction à partir de données d'information implicite, non connue a priori mais utile (traduit de W.Frawley, G. Piatetsky-Shapiro,C. Matheus). De façon similaire, la découverte d'informations a pour objectif d'extraire, à partir d'informations textuelles, des informations cachées ou des modèles. Parmi les problématiques de recherche sous-jacentes on peut citer : les modèles de représentation de l'information en vue de son analyse, les méthodes d'analyse exploratoire des données, les interfaces de visualisation, l'adaptation aux besoins des utilisateurs. Nos travaux de recherche s'orientent dans ces différents domaines.

Les étapes d'un processus de découverte de connaissances

  • Collecte et filtrage de l'information :constitution d'un corpus à partir d'une ou plusieurs sources
  • Extraction d'information : choix des données à extraire, méthodes d'extraction et représentation. Dans nos approches, nous extrayons l'information et la mémorisons sous forme de tables de contingence à 2 ou plus dimensions.
  • Exploration de l'information : différentes types de fonction d'exploration ont été définies dans la littérature: classification, recherche de corrélation et de séquences. Nous nous appuyons sur les méthodes d'analyse de données.
  • Visualisation : présentation des résultats ; nous avons choisi des représentation graphiques multi-dimensionnelles.

Quelques Publications

  • J. Mothe, C. Chrisment, T. Dkaki, B. Dousset, S. Karouach, Combining Mining and Visualization Tools to Discover the Geographic Structure of a Domain Computers, Environment and Urban Systems Journal, (à paraître en 2006).
  • J. Mothe, C. Chrisment, B. Dousset, J. Alaux. DocCube: Multi-Dimensional Visualisation and Exploration of Large Document Sets. Dans : Journal of the American Society for Information Science and Technology, JASIST, Special topic section: web retrieval and mining, V. 7 N. 54, p. 650-659, mars 2003.
  • J. Mothe, C. Chrisment, T. Dkaki, B. Dousset, S. Karouach, "Combining mining and visualization tools to discover the geographic structure of a domain". Computer, Environment and Urban Systems,Elsevier, Numéro spécial Geographic Information Retrieval, V (hors-série) N°4, p. 460-484, juillet 2006.
  • B. Gay, B. DOUSSET, "Innovation and network structural dynamics: Study of the alliance network of a major sector of the biotechnology industry". Research policy, vol. 34, p. 1457-1474, 2005

Applications

  • Le système Tétralogie (Fiche du système en pdf) intègre l'ensemble des modules correspondant aux différentes étapes d'un processus de découverte de connaissances.
    • Collecte et filtrage de l'information : sur des collections spécifiques, sur le Web (module WHaT), par rapport à des profils (module Vigie).
    • Pré-traitement de l'information : extraction d'information en particulier à partir d'information peu ou pas structurée (par exemple des documents HTML). Cela inclut des traitements spécifiques pour le texte libre. Ces modules permettent d'obtenir une représentation de l'information adaptée à son analyse.
    • Exploration de l'information : différentes techniques d'exploration basées sur des méthodes d'analyse de données (classification, analyse en composantes principales, analyse factorielle des correspondances, analyse procustéenne).
    • Visualisation : l'information élaborée est visualisée, sous forme graphique, via des modules coopératifs.
    • Interface : L'interface permet non seulement la visualisation des résultats mais également la participation de l'utilisateur au processus de découverte de connaissances.

  • Le système DocCube Fiche du système en pdf implante l'analyse multi-dimensionnelle aux données textuelles. Les dimensions correspondent à des méta-données organisées de façon hiérarchique. Les faits représentés dans le cube de données correspondent aux nombre de publications pour différentes valeurs des méta-données. Les opérateurs OLAP sont implantés de sorte que différents niveaux d'abstraction peuvent être observés.