AccueilBas de page

Objectifs et Thèmes d'ASSTICCOT

Problématique de recherche

La mise à disposition de corpus spécialisés sous format électronique ainsi que la demande sociale en lien avec le traitement de ces données textuelles a fait émerger un champ de recherches nouveau, visant à modéliser le contenu de ces corpus pour permettre un meilleur accès à la connaissance qu'ils contiennent. Plusieurs disciplines, dont le matériau d'étude est constitué pour l'essentiel de textes, se retrouvent dans cette problématique:


De manière générale, le thème qui fédère ces disciplines concerne la constitution de produits terminologiques en lien avec différents types d'applications : élaboration d'ontologies ou de thésaurus, recherche d'information, text mining (extraction de connaissances dans des textes), aide à la traduction, aide à la rédaction …
Point de départ et objectif assez similaires ne suffisent pas pour que l'interdisciplinarité s'organise. Il convient de travailler sur les histoires, les présupposés théoriques, les méthodes, afin de mieux évaluer les complémentarités qui peuvent exister entre les disciplines concernées et proposer des approches efficaces car adaptées aux besoins identifiés.
Le groupe " Terminologie et Intelligence Artificielle " (dont A.Condamines est la co-fondatrice et la co-animatrice et dont fait partie N. Aussenac-Gilles) a déjà effectué un premier travail de balisage de l'interdisciplinarité. Mais, d'une part, toutes les disciplines évoquées ci-dessus n'étaient pas représentées, et d'autre part, le projet que nous proposons a une ambition d'une autre nature. Il s'agit de faire l'état des connaissances dans les différentes disciplines pour mieux identifier les orientations intéressantes, les difficultés communes ou propres à chacune, les pistes à explorer dans l'avenir.

Champ d'étude et questions retenues pour confronter différents travaux de recherche en cours ou à envisager.

Ce projet vise donc à formuler et à explorer toutes les problématiques abordées dès que l'on cherche à rendre compte du contenu de textes et à organiser les connaissances qui peuvent en être tirées dans des structures plus ou moins formelles, que nous pouvons appeler " ressources terminologiques " (terminologies, thesaurus, bases terminologiques, ontologies, etc.)
La constitution du corpus correspond ainsi à la première étape de l'analyse. Dans un second temps, c'est l'objectif lui-même qui guide l'étude et l'interprétation ; dans un tel processus, l'application n'est pas une simple utilisation de données, elle devient première et joue un rôle tout au long du processus d'analyse. La vision envisagée est donc clairement ascendante puisqu'elle part d'un matériau textuel pour élaborer des modèles mais elle prend en compte très tôt l'objectif de l'étude. Dans une telle perspective, les questions qui se posent peuvent être organisées en six thématiques, théoriques et appliquées, qui constitueront un premier maillage de la réflexion.

Ces questions sont reprises et adaptées par les sous-groupes de travail.

  1. Problèmes théoriques

  2. Relation entre sens et information, sens et connaissance.
    Rôle des corpus dans l'histoire de la discipline.
    Position de la discipline par rapport à l'utilisation des corpus.
    Lien entre vision ascendante (du corpus à un système ou une représentation) et vision descendante (du système au corpus).
  3. Définition du besoin

  4. Quelle est sa nature : appliqué vs théorique ?
    Sur l'axe corpus / processus de dépouillement de corpus / ressource terminologique cible, quel est l'objet d'étude ? qu'est-ce qui est considéré comme un moyen pour l'étudier ?
  5. Modèles

  6. Quels sont les modèles de représentation adéquats lorsqu'on prend les textes comme sources de connaissances ?
    Est-ce que le fait de partir de corpus a un impact fort sur la structuration des données, ou est-ce la nature de l'application visée qui est plus forte ?
    Font-ils appel aux notions de concept ? de terme ? de relation ? en leur donnant quel sens ?
    Quel est le statut des données recueillies dans le modèle : générique ? spécifique ?
  7. Méthode

  8. Décrire l'approche retenue, en quoi elle consiste, à quels principes elle fait appel, ce qu'elle exploite du texte et ce qu'elle laisse de côté.
    Méthode manuelle vs automatique (rôle des outils) ?
    Prise en compte de l'application : A quel moment intervient l'application ? Sur quoi intervient-elle : choix du corpus, choix des outils, techniques, méthodes utilisés, nature du modèle ?
    Quels sont les avantages et les limites connus de cette approche ?
    D'autres approches complémentaires sont-elles utilisées ? ont-elles été comparées à cette approche ? quel en est le bilan ?
    Quel est le spectre d'application de cette méthode (pour quel type de corpus et d'application cible est-elle valide) ?
  9. Evaluation des résultats

  10. Comment est-elle faite ?
    Rôle des experts ? Rôle de l'application
    Critères retenus : coût, qualité des modèles, performances de l'application, etc.
    Quels sont les résultats théoriques et techniques acquis, considérés comme mûrs ?
    Quelles sont les réalisations majeures, démonstratives (s'il y en a) ?
    Vers quelles communautés ces résultats sont-ils communiqués / transférés ?
    Sur quoi portent les projets de recherche en cours en France ?
    Quels sont les points difficiles non résolus ? pourquoi ?
    En quoi ces résultats sont-ils facilement maintenus et mis à jour ?
    Sont-ils réutilisables ? spécifiques ?
  11. Corpus

  12. Réflexion sur la constitution du corpus.
    Comment est constitué le corpus par rapport à l'application ?
    Comment est constitué le corpus par rapport à la méthode mise en œuvre ?
    Typologie des corpus, genre textuel.
    Nature des connaissances qui peuvent/ne peuvent pas être tirées des textes.

    Haut de page