Muriel AMAR - Nathalie AUSSENAC-GILLES - Brigitte BIEBOW - Gilles BISSON - Didier BOURIGAULT - Myriam BOUVERET - Danielle CANDEL - Jean CHARLET - Stéphane CHAUDIRON - Anne CONDAMINES - Sophie DAVID - Valérie DELAVIGNE - Sylvie DESPRES - Rose DIENG-KUNTZ - François GAUDIN - Maryvonne HOLZEM - Gilles KASSEL - Daniel KAYSER - Sylvie LAINE-CRUZEL - Geneviève LALLICH-BOIDIN - Jean-Luc MINEL - Josiane MOTHE - Adeline NAZARENKO - Claire NEDELLEC - Monique SLODZIAN - Sylvie SZULMAN - Ludovic TANGUY - Yannick TOUSSAINT - Pierre ZWEIGENBAUM
Domaines de recherche
Axe "Nouvelles Technologies de l'Information"
Axe "Recherches Linguistiques"
Morphologie des "unités d’information" : étude des propriétés linguistiques et référentielles du descripteur. Statut du descripteur en indexation et en recherche d’information ; descripteur et nom propre.
Axe "Etudes Cognitives"
Catégorisation des objets textuels en bibliothèque: problématique de la “ naturalité ” des objets d’information. Rôle des pratiques dans l’organisation des objets sémiotiques : comparaison de pratiques professionnelles.
Equipes de recherche
Juin 2000-Mars 2001 :
Membre de l'équipe organisatrice de l'Arc 3 (Action de recherche concertée soutenue par l'AUPELF-UREF) sur le thème de l'évaluation d'outils d'aide à la construction automatique de terminologie et de relations sémantiques entre termes à partir de corpus.
Depuis septembre 1998 :
Chercheur associé à l’équipe LCPE (Langages, Cognitions, Pratiques) dirigée par Danièle Dubois, CNRS U.P.R 9017.
Publications récentes
2001 : Evaluation de logiciels d’extraction dans les champs de
l’indexation, la traduction et la terminologie / corpus INRA. En
collaboration avec Sophie David. Rapport de recherche établi dans le cadre de
l’ARC A3 (AUF), 2001. 76 p. + annexes.
2000: Les Fondements théoriques de l’indexation : une approche linguistique.
Préface de Michel Le Guern ; avant-propos de Martine Poulain. Paris : ADBS
Editions (Sciences de l’information ; série Recherches et documents). 355 p.
2000 : “ Enjeux des collections numériques en bibliothèque ”. Les Cahiers du
numérique, n° 6 consacré à la Publication en ligne sous la direction
de Peter Stockinger. décembre 2000, p. 193-208.
Mes thèmes de recherche, situés en Ingénierie des connaissances, couvrent les points suivants
Les bases de connaissances terminologiques (BCT)
Etude d'une méthode pour leur construction ; développement et évaluation d'un
logiciel de construction de BCT, Géditerm.
Intérêt pour la construction d'ontologies et de modèles de domaines à travers
des projets.
Evaluation de l'intérêt des bases de connaissances terminologiques pour la
modélisation conceptuelle.
Utilisabilité des BCT, développement et évaluation d'un logiciel de
consultation de BCT Consulterm.
Modèles de connaissances et indexation : évaluation de l'apport d'un modèle
conceptuel pour faciliter la sélection des termes et leur structuration dans un
index.
Vérification et formalisation des BCT : étude des types de vérifications, mais
aussi de contraintes sur l'expressivité du modèle, apportées par la traduction
des données d'une BCT en logique de description.
Acquisition de connaissances à partir de textes
Place de l'extraction de termes, à l'aide de logiciels comme Lexter, dans le
processus de modélisation.
Place de l'extraction de relations sémantiques à l'aide de Caméléon,
logiciel développé dans le cadre d'une thèse (P. Séguéla soutenue en mars
2001). Valorisation du logiciel.
Des textes aux applications : aspects méthodologiques
Proposition d'un cadre méthodologique générique, basé sur l'étude de textes à
l'aide de logiciels de traitement automatique de la langue.
Adaptation de ce cadre à la construction d'index, au référencement de pages web
et à la construction d'ontologies.
Mise en forme d'une méthode pour la modélisation d'ontologies à partir de
textes (avec B. Biébow et S. Szulman du LIPN).
Spécification d'évolutions du logiciel de modélisation Terminae à partir des
bilans tirés de Géditerm.
Collaboration avec A. Condamines et D. Bourigault, linguistes de l'ERSS, pour
adapter une méthode et des outils linguistiques de dépouillement de corpus à
l'indexation de pages web.
Aussenac-Gilles N., Condamines A., Entre textes et ontologies formelles : les bases de connaissances terminologiques. Systèmes d'information pour la gestion des connaissances dans les organisations. Eds. M. Zacklad, M. Grundstein. Paris : Hermès. Traité IC2. 2001. pp 153-178
Aussenac-Gilles N., Biébow B., Szulman S.. Revisiting Ontology Design : a methodology based on corpus analysis. Knowledge engineering and Knowledge Management : methods, models and tools. R. Dieng and O. Corby (Eds). Berlin : Springer, 2000. LNAI lecture notes in Computer Science vol. 1937. pp 172-188.
Aussenac-Gilles N. GEDITERM : un logiciel pour gérer des bases de connaissances terminologiques. Terminologies Nouvelles, 19 Juin 1999. Bruxelles. pp 111-123.
N. Aussenac-Gilles, P. Séguéla. Les relations sémantiques : du linguistique au formel. Cahiers de Grammaire. N° spécial sur la linguistique de corpus. A. Condamines (Ed.). N°25. Toulouse, Presses de l'UTM. Déc. 2000. pp 175-198.
Nous travaillons sur la construction d'ontologies à partir de textes, fondée
sur une analyse de corpus utilisant des principes linguistiques et des
logiciels de traitement automatique de la langue. Nous avons élaboré une
méthode et un outil, TERMINAE, qui permettent de construire différentes
ressources comme un index, une terminologie comprenant des fiches
terminologiques et un réseau conceptuel, constitué de concepts issus des fiches
terminologiques et des relations sémantiques entre eux, ou une ontologie
formelle traduisible en OIL et XML.
TERMINAE est l'un des rares outils de construction d‘ontologies diffusé
dans la communauté universitaire française.
Je travaille depuis plusieurs années sur la conception de méthodes et d'outils pour la construction de recherches terminologiques à partir de corpus. Mes recherches actuelles portent sur l'élaboration et la validation d'une chaine logicielle qui enchaine analyse syntaxique large et analyse distributionnelle (SYNTEX), en collaboration avec Cécile Fabre de l'ERSS. Dans le cadre d'un contrat de valorisation de la recherche entre le CNRS et une entreprise extérieure, je collabore à la mise en place d'un service de veille technologique sur Internet exploitant les résultats de l'outil SYNTEX.
Je suis Maître de Conférences en Sciences du Langage à l'Université de Rouen
et membre du laboratoire DYALANG, UMR CNRS 6065.
Ma recherche porte sur la sémantique et je travaille à la réalisation de
modélisations lexicales pour bases de données d'après corpus spécialisés.
Mes thèmes actuels sont la polysémie, la synonymie, la dérivation, étudiés sur
les unités nominales et verbales.
Les corpus traités concernent les domaines de la bioinformatique , des
biotechnologies (français et anglais), de l'informatique, de la cuisine
(français).
Site : http://www.univ-rouen.fr/dyalang/
(cliquer sur rubrique Membres puis Enseignants-Chercheurs)
Chargée de recherche (CR1) au CNRS, j'ai dirigé l'équipe EST (Equipe Sciences et Techniques) et je dirige actuellement le groupe LOSNT (Langues deSpécialité, Néologie et Terminologie).
Domaines de compétence :
Linguistique, lexicologie, lexicographie de spécialité, pratique
terminologique, sémantique lexicale, analyse de corpus textuels.
J'ai participé à la rédaction du Trésor de la langue française
(rédaction de plus de 3000 articles).
Principaux domaines de recherche :
Je suis ingénieur chercheur à l'assistance Publique-Hôpitaux de Paris (AP-HP) et travaille dans le domaine de l'ingénierie des connaissances apppliquée à la médecine au sein de l'équipe STIM (sciences et technologies de l'information médicale).
Mes principaux sujets de réflexion sont la gestion des connaissances
médicales dans le cadre des réseaux de santé et le dossier médical.
Dans ce contexte, je travaille à la construction d'ontologies en médecine à
partir de textes (analyse de corpus). Ce travail se fait en utilisant SYNTEX
comme analyseur et l'éditeur d'ontologies DOE (INA). Nous avons construit une
ontologie de la réanimation chirurgicale en collaboration avec Sophie Lemoigno
et Marie-Christine Jaulent à l'INSERM et Didier Bourigault (ERSS) [1].
D'autres travaux ont démarré sur la construction d'ontologies dans le domaine de la périnatalité (réseau de santé), toujours à partir de corpus et avec SYNTEX, où des problématiques de fusions d'ontologies apparaissent entre les volets hospitalier et psycho-médico-social du réseau.
Enfin, hors du champ de la médecine, nous avons travaillé avec Didier
Bourigault à la construction de l'index du livre « Ingénierie des connaissances
: évolutions et nouveaux défis. J.
Charlet, M. Zacklad, G. Kassel, D. Bourigault (eds), 2000, Eyrolles » [2].
Nous contribuons à la construction de l'index d'un nouveau livre sur
l'ingénierie des connaissances, en collaboration Didier Bourigault et Adeline
Nazarenko, en essayant, à partir de SYNTEX et d'outils développés au LIPN, de
construire une ressource terminologique spécifique à partir de laquelle seront
dérivés différents index.
[1] S. Le Moigno, J. Charlet, D. Bourigault et M.-C. Jaulent, Construction
d'une ontologie à partir de corpus : expérimentation et validation dans le
domaine de la réanimation chirurgicale, In: Actes de IC2002, Rouen, p. 229-38.
[2] D. Bourigault et Jean Charlet}, Construction d'un index thématique de
l'Ingénierie des Connaissances, In: Actes de IC99, Palaiseau.
Equipe "Systèmes de traitement de l'information et de gestion des connaissances"
L'intégration de nouvelles fonctionnalités «avancées» ou «intelligentes» permet aux systèmes de traitement de l'information (STI) simuler ou reproduire des tâches cognitives de plus en plus complexes. Cette évolution nécessite une réflexion approfondie sur les différentes technologies (statistique, probabiliste, connexionniste, linguistique,...), la nature des outils qui sont développés (agents d'aide à la recherche d'information, agents de surveillance et d'alerte, outils de gestion des connaissances, outils d'analyse documentaire, logiciels de traitement automatique des langues,...) et leur acceptabilité par les usagers.
Dans ce contexte, l'objectif de l'équipe est de définir, mettre en place et expérimenter, dans le champ de l'information spécialisée (ou information professionnelle) de nouvelles méthodologies d'évaluation et de conception des systèmes de traitement de l'information (STI) fondées sur une analyse préalable des contextes d'usage.
Il s'agit d'étudier les différents types de modélisation pouvant rendre compte des comportements informationnels des usagers (aspects individuels et collectifs), afin d'intégrer ces paramètres dans des méthodes d'évaluation réellement centrées sur l'utilisateur. Les aspects cognitifs et ergonomiques lors des interactions personne/système sont étudiés au même titre que l'apport de nouvelles fonctionnalités et/ou technologies. Différentes expérimentations sont conduites sous forme de réalisation de maquettes ou de prototypes afin de valider ces approches
Dans cette optique, quatre axes principaux de recherche sont identifiés :
Projets :
CHAUDIRON S., « Veille automatisée sur Internet en contexte multilingue », in Multilinguisme et traitement de l'information, sous la dir. de Frédérique Segond, Paris, Hermès, Chapitre 2, à paraître.
CHAUDIRON S. et FLUHR C. (sous la dir. de), Filtrage et résumé automatique de l'information sur les réseaux -Actes du 3ème Colloque du Chapitre français de l'ISKO, Nanterre 5 et 6 juillet 2001, Université de Paris X, 283 pages.
CHAUDIRON S., « Spécifications techniques d'un portail de veille en IST », Rapport de fin de contrat, convention Ministère de la Recherche n°Ê99K5214.
Les mots du nucléaire
Dans le cadre de la socio-terminologie et de l'analyse de discours, la problématique des travaux engagés est celle de la vulgarisation et de la diffusion de vocabulaires spécialisés. Le corpus (numérisé) rassemble un ensemble de discours écrits et oraux sur l'exploitation civile de l'énergie nucléaire à destination du grand public. Le modèle d'analyse prend en compte l'usage qui est fait des " termes " d'un point de vue sémantique sans négliger les positionnements des énonciateurs aux prises avec des visées pragmatiques spécifiques. Les termes ont été repérés à l'aide d'un outil informatique (Lexter) et de critères de filtrage construits en fonction de la spécificité du corpus. De ce corpus est extrait du matériel utilisable pour la constitution de ressources linguistiques pour des vulgarisateurs et un dictionnaire de vulgarisation de l'énergie nucléaire.
L'objectif de mes activités réalisées en ingénierie des connaissances et en liaison avec cette action est la construction d'ontologie à partir de textes. Les domaines d'application sont l'accidentologie et le droit médical. La possibilité de comparer les résultats dans ces deux domaines est une richesse. Dans le domaine de l'accidentologie, l'ontologie est un support à la représentation d'accident et de scénarios d'accident. Pour le droit médical, elle doit aider à l'accès aux informations concernant le domaine via un moteur de recherche.
Pour élaborer ces ontologies une démarche linguistique en collaboration avec les experts a été adoptée car comme il est classique de l'écrire toutes les connaissances ne sont pas accessibles par le biais des textes. En outre le travail effectué avec les experts permet de mettre au jour des connaissances qu'il n'est pas toujours facile d'expliciter. Cette démarche se décompose en trois points : l'élaboration d'un corpus de textes ; le travail terminologique sur ce corpus ; la modélisation des connaissances ainsi identifiées. L'expert est associé à chacune des étapes.
1- l'élaboration d'un corpus de textes
Nous avons opéré une classification a priori des textes. Cette
classification repose sur les conditions de production des textes (type
d'émetteur, de récepteur, de canal, etc.), sur les buts visés par les textes
(expliquer, convaincre, théoriser,... ), sur l'inscription dans des « genres »
(rapport, article, conférence, etc.) sur l'emploi ou non de certaines marques
linguistiques.
2- le travail terminologique sur ce corpus
Nous avons mis en œuvre une démarche hybride qui est guidée par l'objectif de
résolution de problème du domaine :
2a- Le traitement
terminologique
Notre questionnement porte sur le choix des unités linguistiques à extraire,
leur extraction et leur regroupement de façon manuelle et/ou automatique.
Il nous semble que le genre du texte et le type de modélisation du domaine
doivent figurer parmi les paramètres à considérer pour déterminer les unités
linguistiques à extraire. Dans notre cas nous avons privilégié les verbes car
les textes sur lesquels nous travaillons décrivent des déroulement d'actions
qui sont décrites d'un point de vue systémique.
Les unités linguistiques que nous avons extraites sont par conséquent composées
d'un verbe et de ses arguments. L'intérêt d'un tel choix est que le couple
(verbe + locution, environnement actanciel) renvoie à la prise en compte de la
prédication et non plus au verbe seul pour effectuer le classement des verbes.
Le regroupement des unités linguistiques nécessite un travail important qui
n'est pas toujours clairement défini au sens où les problèmes qui se posent
sont peu ou mal décrits. Face à la liste des verbes et de leurs arguments, nous
avons adopté une démarche descendante en choisissant d'utiliser une
classification de verbes pour les regrouper.
Si l'on se réfère aux travaux en psychologie linguistique la terminologie ne
peut pas être isolée des processus cognitifs et des productions langagières qui
mènent à l'acceptation des termes. Dans ce cadre, la terminologie est également
dépendante des groupes sociaux et des pratiques professionnelles et
langagières. L'activité de dénomination et de définition des regroupements doit
donc être effectuée par des spécialistes du domaine afin de fixer la
signification du concept ainsi établi en fonction d?une tâche précise et dans
un contexte donné.
2b- Les outils
Le recours à des outils de traitement automatique des corpus pour l'extraction
des termes semble incontournable même si un travail de traitement manuel du
corpus peut intervenir. Le problème est alors celui du choix d'outils tels que
les logiciels d'extraction et les logiciels de classification. Une étude
comparative précise des logiciels existants nous semble indispensable si l'on
veut se faire une idée des résultats qu'ils produisent. Nous avons utilisé
trois logiciels TROPES, NOMINO et LEXTER. Nos conclusions sont partielles et à
parfaire.
Voici donc en quelques lignes les questions qui se sont posées au cours de la réalisation des travaux décrits et les éléments de réponse que j'ai pu apporter. La nature pluridisciplinaire des problèmes soulevés est évidente ce qui motive ma participation et je l'espère contribution à cette action.
INRIA, Sophia Antipolis. Projet ACACIA
Le projet ACACIA à l'INRIA-Sophia-Antipolis vise à développer des aides
méthodologiques et logicielles pour la capitalisation des connaissances (en
particulier pour la construction et la diffusion de mémoire d'entreprise). Ces
travaux peuvent s'étendre à toute organisation / communauté.
Nous approfondissons le cas où la mémoire d'entreprise peut être matérialisée
sous forme de documents, d'ontologies et de modèles de connaissances, avec
modélisation de multiples points de vue. Dans le cas où la mémoire d'entreprise
est étudiée comme un "web sémantique d'entreprise", elle se
matérialise par des ontologies, des documents, et des annotations sur ces
documents en utilisant le vocabulaire conceptuel des ontologies. La recherche
d'informations dans la mémoire d'entreprise peut alors être guidée par ces
ontologies et ces annotations.
Pour la représentation des ontologies ou des modèles de connaissances, nous nous appuyons sur le formalisme des graphes conceptuels de Sowa et sur les langages de la galaxie XML (en particulier RDF - Resource Description Framework).
Les textes jouent un double rôle, d'une part en tant que sources à partir desquelles peuvent être construits certains composants de la mémoire (tels que des ontologies dans une mémoire à base de connaissances), et d'autre part en tant que composant de la mémoire (par exemple, dans le cas d'une mémoire documentaire). De même, les ontologies peuvent jouer deux rôles, d'une part en tant que composant de la mémoire, d'autre part en tant que moyen d'améliorer la recherche d'information.
Pour la construction des ontologies, nous reposons sur des corpus de textes et utilisons des outils de traitement linguistiques tels que des extracteurs de candidats termes (ou ultérieurement, des extracteurs de relations). Nous avons par exemple travaillé sur l'exploitation de commentaires textuels de bases de données et proposé des règles heuristiques basées sur les régularités des candidats termes obtenus grâce à un extracteur de termes à partir du corpus. Cette méthode reposant sur des techniques linguistiques est alors utile tant pour la construction semi-automatique des ontologies que pour la construction semi-automatique des annotations. Ces travaux ont été appliqués pour la construction d'ontologies intégrées dans une mémoire de projet. De même, nous étudions l'intérêt de l'utilisation d'outils linguistiques dans le cadre de la veille technologique.
Après une thèse soutenue en 1997, j'ai été chargée d'une étude sur l'Aménagement terminologique à partir des thèses soutenues devant l'Université de Rouen (financement DGLF). Suite à cette enquête, nous avons, Thierry Wable (chercheur au laboratoire Dyalang) et moi-même, élaboré un protocole de description de l'avancée des connaissances scientifiques (DELFACS).
Nous travaillons présentement (dans le cadre d'une opération de recherche du laboratoire intitulée : les néologismes des thèses : un cas d'aménagement du français des sciences), à l'amélioration de ce protocole en nous intéressant plus particulièrement aux résumés de thèses en tant que genre textuel et source de néologismes.
J'occupe depuis la rentrée 1998 un poste de Maître de conférences en sciences du langage, spécialité terminologie, au Département Langues et Communication de l'UFR des Sciences et Techniques de l'Université de Rouen. J'essaie donc depuis cette date de faire progresser les collaborations de recherches entre notre UMR et des laboratoires de l'UFR des Sciences.
HOLZEM, M. 1999. «Terminologie et documentation : pour une meilleure circulation des savoirs», ADBS Editions, 292 p.
HOLZEM M. et WABLE T., 1999. Aménagement terminologique à partir des thèses soutenues devant l'Université de Rouen : rapport final de l'opération de recherche de l'UPRESA 6065 menée sous la direction de François Gaudin, Université de Rouen, 2 vols, 96-300 p.
HOLZEM M. 2000 «Le résumé de thèse : un exemple de reformulation explicative original dans l'ensemble de la production des textes scientifiques», dans Les Annales de l'Université de Franche Comté Université de Franche Comté, nvlle série n°12 p 203-212..
HOLZEM M. et WABLE T., 2001. «La description terminologique pour rendre compte de l'avancée des connaissances scientifiques en langue française.» Dans Recherche en rédaction professionnelle(Sherbrooke, CA.), Vol 1, n°1, hiver 2001- [http://www.usherb.ca/flsh/rrp/default.htm]
L'équipe Ingénierie des Connaissances du LaRIA (Amiens) définit une méthode de construction d'ontologies. Celle-ci conduit à distinguer deux manifestations de l'ontologie :
Ces travaux sont appliqués au développement de « mémoires organisationnelles » ou « mémoires d'entreprise », c'est-à-dire des systèmes d'information dédiés à la gestion des connaissances de l'organisation. De telles mémoires exploitent une ontologie explicite servant à modéliser l'organisation en décrivant sa structure, ses activités, ses produits, ses partenaires. À ce jour, nos applications ont concerné des organisations de recherche [4].
[1] KASSEL G., PERPETTE S.
(1999). Co-operative ontology construction needs to carefully articulate terms,
notions and objects. In Proceedings of the International Workshop on
ontological Engineering on the Global Information Infrastructure, Dagsthul
Castle (Germany), p. 57-70.
[2] KASSEL G., PERPETTE S. (2002). OntoSpec : une méthode de spécification semi-informelle d'ontologies. Rapport Interne du LaRIA. À paraître début 2002.
[3] BARRY C., CORMIER C., KASSEL G. & NOBÉCOURT J. (2001). Évaluation de langages opérationnels de représentation d'ontologies. In Actes de la Conférence en Ingénierie des Connaissances : IC-2001, Presses Universitaires de Grenoble, pp. 309-327.
[4] KASSEL G., ABEL M.-H., BARRY C., BOULITREAU P., IRASTORZA C., PERPETTE S. (2000). Construction et exploitation d'une ontologie pour la gestion des connaissances d'une équipe de recherche. In Actes des Journées Francophones d'Ingénierie des Connaissances : IC-2000, Toulouse, p. 251-259.
Travaux personnels :
Travaux encadrés au sein du laboratoire GRESEC-CRISTAL - Grenoble 3 et relevant de la problématique concernée :
Centres d'intérêt de recherche au sein de RECODOC - Lyon 1 (depuis oct 2000)
Analyse de documents techniques (incluant le texte, les graphiques, les tableaux... et la mise en forme) en vue d'en représenter les connaissances à des fins de recherche d'information.
Les recherches de Jean-Luc Minel portent sur l'élaboration de méthodes et de modèles de représentation des connaissances linguistiques pour l'extraction d'informations dans descorpus informatisés. Il s'intéresse plus particulièrement au résumé automatique et au filtrage sémantique des textes.
THEMES DE RECHERCHE :
Systèmes de Recherche d'Information - Systèmes de Découvertes de Connaissance.
Les Systèmes de Recherche d'Informations (SRI) ont pour objectif de répondre à un besoin d'information exprimé par un utilisateur. Leur efficacité implique l'utilisation de modèle de représentation des informations et des mécanismes d'accès efficaces. La définition de ces modèles correspond à un des volets de nos recherches. Avec l'accroissement des quantités d'information disponibles, l'accès à l'information brute ne répond pas toujours à l'objectif de l'utilisateur. Certainestâches nécessitent une information avancée qui peut être extraite par analyse d'un ensemble de documents. La définition des modèles et techniques permettant de réaliser ce type de tâches correspond au second volet de nos travaux. Ces deux volets ne sont bien sûr pas indépendants puisque l'exploration se base sur des corpus qui peuvent être constitués grâce à l'utilisation de SRI et nécessite une représentation adéquate de l'information. A l'inverse les résultats d'analyse et d'exploration permettent d'extraire des éléments qui peuvent améliorer les résultats de l'indexation pour les SRI. Nos travaux s'appuient essentiellement sur des techniques issues de la statistique mais intègrent également des composantes linguistiques (analyse syntaxique, notion de concepts, prise en compte de relations sémantiques entre termes).
PROBLEMATIQUES ETUDIEES :
Représentation de textes
Exploration d'Information et Classification
Visualisation
APPLICATIONS:
PRINCIPAUX PROJETS :
IRAIA, IST -1999-10602, "Getting Orientation in Complex Information Spaces", SRI basé sur la structuration des espaces d'information via des hiérarchies de concepts, application à des données économiques en différentes langues.
EStage, IST-2000-28314, "A New Stage for the Cultural Heritage in European Puppetry", Application des concepts développés dans IRAIA à un domaine culturel.
Computational and information Infrastructure in the Astronomical DataGrid, COST, TC-TIST/01-2001/14, Développement d'approches pour la manipulation de données dans le contexte de l'astronomie et de l'astrophysique.
PRINCIPAUX PROTOTYPES :
IRAIA issu du projet IRAIA. Inclus des modules permettant la catégorisation automatique de textes avec différentes techniques et pour différents langues ainsi que des modules de visualisation d'information.
DocCube Système d'exploration d'ensemble de documents via le concept de cube issu de l'analyse multi-dimensionnelle.
QUELQUES PUBLICATIONS :
«TétraFusion: Information Discovery on the Internet», Francis Crimmins, Taoufiq Dkaki, Josiane Mothe, Alan F. Smeaton, IEEE Intelligent Systems & their applications, Vol 14, N 4, pp 55-62, IEEE Computer Society, Juillet-Août 1999.
«Users bootstrap searching
the Web through interactive agents supporting best pratice sharing», K.
Englmeier, J. Mothe, B. Pauer, 9ième Conférence international Human-Computer
Interface, pp 923-927, Nouvelle Orléans, Août 2001.
«Information mining: use of
the document dimensions to analyse interactively a document set», J. Mothe, C.
Chrisment, D. Dkaki, B. Dousset, D. Egret, pp 66-77, European Colloquium on IR
Research: ECIR, Avril 2001.
Mes travaux se situent dans le domaine du TAL et portent plus spécialement sur les aspects sémantiques. L'essentiel de ces travaux se font dans le cadre de collaborations que je mentionne ci-dessous.
Je m'intéresse à l'acquisition de connaissances à partir de données textuelles spécialisées. Il s'agit à la fois des connaissances du domaine (terminologie, schémas prédicatifs, classes sémantiques) et des connaissances factuelles. Les techniques utilisées pour l'acquisition de deuxièmes (analyse sémantique, extraction d'information) font d'ailleurs appel aux premières.
Au niveau terminologique, au-delà de l'extraction des termes à proprement parler, je m'intéresse à la structuration en réseau sémantique des termes extraits (relations lexicales, classes sémantiques...). J'essaye de combiner les approches endogènes qui reposent sur une analyse distributionnelle (1) du corpus et l'utilisation des ressources lexicales disponibles. Je m'intéresse également à l'utilisation des techniques d'apprentissage pour ces tâches d'acquisition (2).
Ces travaux sur la terminologies ont un double objectif :
(1) Collaboration avec P. Zweigenbaum et le groupe de travail ESPOIR autour de la construction de classes sémantiques et avec T. Hamon autour du développement de SynoTerm, un outil permettant de repérer des liens de synonymie entre termes.
(2) Collaboration avec C. Nédellec et le groupe de travail A3CTE "Applications, Acquisition et Apprentissage de connaissances à partir de textes".
(3) Collaboration avec C. Nédellec, G. Bisson et T. Poibeau autour du projet de bio-informatique Caderige.
(4) Collaboration avec T. Aït El Mekki, D. Bourrigault et J. Charlet.
MIG - INRA
Mes activites de recherche concernent les applications de l'apprentissage à
l'acquisition de connaissance dans les documents electroniques en langage
naturel. Plus precisement nous etudions comment l'apprentissage d'ontologies,
de terminologie, de schemas predicatif et de regles d'extraction a partir de
corpus analyses peuvent concourir a cette acquisition. Notre domaine
d'application est celui de la biologie, domaine d'interet du laboratoire MIG (Mathematique,
Informatique et Genome).
Nous travaillons sur la construction d'ontologies à partir de textes, fondée
sur une analyse de corpus utilisant des principes linguistiques et des
logiciels de traitement automatique de la langue. Nous avons élaboré une
méthode et un outil, TERMINAE, qui permettent de construire différentes
ressources comme un index, une terminologie comprenant des fiches
terminologiques et un réseau conceptuel, constitué de concepts issus des fiches
terminologiques et des relations sémantiques entre eux, ou une ontologie
formelle traduisible en OIL et XML.
TERMINAE est l‘un des rares outils de construction d‘ontologies diffusé
dans la communauté universitaire française.
Voir http://www.univ-tlse2.fr/erss/membres/tanguy
Je m'intéresse à l'exploitation de corpus annotés, et à son outillage,
notamment aux programmes d'interrogation et de fouille de corpus.
Plus loin des considérations d'ASSTICCOT, je travaille également sur la veille
terminologique sur Internet, et sur le repérage et l'analyse de néologismes,
toujours sur le WWW.