|
|
|
|
Les étapes d'un processus de découverte de connaissances
- Collecte et filtrage de l'information :constitution d'un corpus à partir d'une ou plusieurs sources
- Extraction d'information : choix des données à extraire, méthodes d'extraction et représentation. Dans nos approches, nous extrayons l'information et la mémorisons sous forme de tables de contingence à 2 ou plus dimensions.
- Exploration de l'information : différentes types de fonction d'exploration ont été définies dans la littérature: classification, recherche de corrélation et de séquences. Nous
nous appuyons sur les méthodes d'analyse de données.
- Visualisation : présentation des résultats ; nous avons choisi des représentation graphiques multi-dimensionnelles.
| |
|
|
|
Quelques Publications
- J. Mothe, C. Chrisment, T. Dkaki, B. Dousset, S. Karouach, Combining Mining and Visualization Tools to Discover the Geographic Structure of a Domain
Computers, Environment and Urban Systems Journal, (à paraître en 2006).
- J. Mothe, C. Chrisment, B. Dousset, J. Alaux. DocCube: Multi-Dimensional Visualisation and Exploration of Large Document Sets. Dans : Journal of the American Society for Information Science and Technology, JASIST, Special topic section: web retrieval and mining, V. 7 N. 54, p. 650-659, mars 2003.
-
J. Mothe, C. Chrisment, T. Dkaki, B. Dousset, S. Karouach, "Combining mining and visualization tools to discover the geographic
structure of a domain". Computer, Environment and Urban Systems,Elsevier, Numéro spécial Geographic Information Retrieval, V
(hors-série) N°4, p. 460-484, juillet 2006.
-
B. Gay, B. DOUSSET, "Innovation and network structural dynamics: Study of the alliance
network of a major sector of the biotechnology industry". Research
policy, vol. 34, p. 1457-1474, 2005
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Applications
- Le système Tétralogie (Fiche du système en pdf) intègre l'ensemble des
modules correspondant aux différentes étapes d'un processus de découverte de connaissances.
- Collecte et filtrage de l'information : sur des collections spécifiques, sur le Web (module WHaT), par rapport à des profils (module Vigie).
- Pré-traitement de l'information : extraction d'information en particulier à partir d'information peu ou pas structurée (par exemple des documents HTML). Cela inclut des traitements spécifiques pour le texte libre. Ces modules permettent d'obtenir une représentation de l'information adaptée à son analyse.
- Exploration de l'information : différentes techniques d'exploration basées sur des méthodes d'analyse de données (classification, analyse en composantes principales, analyse factorielle des correspondances, analyse procustéenne).
- Visualisation : l'information élaborée est visualisée, sous forme graphique, via des modules coopératifs.
- Interface : L'interface permet non seulement la visualisation des résultats mais également la participation de l'utilisateur au processus de découverte de connaissances.
- Le système DocCube Fiche du système en pdf implante l'analyse multi-dimensionnelle aux données textuelles. Les dimensions correspondent à des méta-données organisées de façon hiérarchique.
Les faits représentés dans le cube de données correspondent aux nombre de publications pour différentes valeurs des méta-données.
Les opérateurs OLAP sont implantés de sorte que différents niveaux d'abstraction peuvent être observés.
| |
|
|
|
|
|
|
|
|
|
|
|
|
| |