Les réseaux lexicaux pour le TAL

Les réseaux lexicaux pour le TAL

Journée d'étude de l'Axe TAL de CLLE-ERSS (ouvert au public)
jeudi 27 juin 2013

Les réseaux lexicaux permettent de représenter à grande échelle tout
type de relation entre des mots ; ils sont construits à partir de
diverses ressources (corpus, dictionnaires, logs de requêtes, etc.). Le
but de cette journée d'étude est de présenter leurs caractéristiques, et
leur usage en Traitement Automatique des Langues. Les différents
exposés, en s'appuyant sur des applications concrètes, aborderont des
questions liées à la construction, la comparaison, l'évaluation,
l'utilisation et les limites de ces ressources.

PROGRAMME :

10H-->10H20 : Bruno Gaume (CLLE)
     Structure des réseaux lexicaux
10H20-->10H40 : Yann Desalle (CLLE)
     SLAM: système robuste pour l'interprétation lexicale automatique de
     métaphores
10H40-->11H : Yann Desalle (CLLE)
     De l'exploration automatique des réseaux de synonymie à l'étude de
     la dynamique d'acquisition lexicale des verbes en français et en
     mandarin.
11H-->11H20 : PAUSE
11H20-->11H40 : Benoit Gaillard (CLLE)
     Tmuse : un outil d'exploration lexicale
11H40-->12H : Emmanuel Navarro (IRIT)
     Kodex, un système de recherche d'information
12H-->14H : PAUSE
14H-->14H30 : Valérie Hanoka (ALPAGE)
     Utilisation d'un graphe de traduction pour la complétion
     d'ontologies légères multilingues
14H30-->16H : Laurent Prevot (LPL)
     Quelles ressources sémantiques pour traiter la parole spontanée?

PROGRAMME DETAILLE :

10H-->10H20
TITRE : Structure des réseaux lexicaux

INTERVENANT : Bruno Gaume (CLLE)
RESUME : Les grands réseaux de terrain sont les réseaux que l'on trouve
en pratique, ils sont construits à partir de données issues de
différents domaines d'étude : La sociologie comme le réseau d'amis de
Facebook, la linguistique comme les réseaux de synonymie, la webologie
comme le réseau des pages web. Plusieurs études montrent un fait
remarquable qui est que tous ces réseaux, pourtant d'origines si
diverses, possèdent des propriétés identiques bien particulières et font
partie de la classe des Réseaux Petits Mondes Hiérarchiques (RPMH). Un
autre fait tout aussi remarquable est que cette classe des RPMH est très
petite au regard de l'ensemble des réseaux possibles : la probabilité de
tirer au hasard parmi l'ensemble des réseaux possibles un RPMH est très
proche de zéro. C'est-à-dire que les réseaux auxquels nous avons à faire
dans la vraie vie se ressemblent tous par leurs structures communes,
bien qu'intrinsèquement cette structure soit très rare du point de vue
de la théorie de la mesure.
Dans cet exposé je commencerai par présenter les quatre propriétés
fondamentales omniprésentes dans les réseaux lexicaux.
Je présenterais ensuite la dynamique des trajets d'un marcheur qui se
déplace aléatoirement sur les sommets d'un réseau lexical à travers les
relations lexicales. Nous verrons que l'étude de ces dynamiques permet
de définir des outils de métrologie lexicale.

-----------------------------------------------------------------------------
10H20-->10H40
TITRE : SLAM: système robuste pour l'interprétation lexicale automatique
de métaphores
INTERVENANT : Yann Desalle (CLLE)

RESUME : SLAM (Solution Lexicale Automatique pour Métaphores) est un
système robuste pour l’interprétation automatique de métaphores par
substitution lexicale (par exemple, SLAM(“déshabiller* une pomme”) =
“peler une pomme” ). Ce système réalise une substitution lexicale du
foyer métaphorique des métaphores substitutives non conventionnelles
grâce à un indice de tension sémantique globale entre les
candidats-substituts et la métaphore à interpréter. Cette tension
globale est la combinaison de deux tensions primitives: (a) une tension
sémantique paradigmatique entre les candidats-substituts et le foyer
métaphorique (“déshabiller”) et (b) une tension sémantique syntagmatique
entre les candidats-substituts et le contexte métaphorique (le
complément d’objet direct “une pomme”).
L’idée sous-jacente à cette résolution est que: (a) plus la tension
paradigmatique est faible plus le candidat-substitut conserve le sens du
foyer métaphorique et (b) plus la tension syntagmatique est faible plus
la paraphrase obtenue après substitution est conventionnelle. La tension
paradigmatique repose sur une mesure de proximité sémantique calculée
sur un graphe de synonymie, et la tension syntagmatique repose sur une
mesure de congruence sémantique de triplets syntaxiques calculée sur un
corpus.
Bien qu’en général les graphes de synonymie présentent un faible taux
d’accord au niveau des liens, l’évaluation de SLAM montre que le système
est robuste, c’est-à-dire que la plupart des dictionnaires de synonymie
peuvent être utilisés pour calculer l’indice de tension paradigmatique.
Une démonstration de l'application suivra la présentation.

------------------------------------------------------------------------
10H40-->11H
TITRE : De l'exploration automatique des réseaux de synonymie à l'étude
de la dynamique d'acquisition lexicale des verbes en français et en
mandarin.
INTERVENANT : Yann Desalle (CLLE)
RESUME :
Une exploration automatique des réseaux lexicaux adaptée à leur
structure de "réseau petit monde hiérarchique" ouvre de nouvelles voies
pour l'analyse lexico-sémantique des productions verbales. Ainsi, nous
verrons dans cet exposé comment les réseaux de synonymie permettent de
modéliser une partie de la dynamique d'acquisition lexicale des verbes.
Tout d'abord, l'analyse par exploration automatique des réseaux de
synonymie de verbes produits par des jeunes enfants (2-5 ans) et des
adultes natifs du français et du mandarin en dénomination d'actions de
séparation/détérioration d'objet a mis au jour deux modes de
manifestation de la flexibilité sémantique chez les jeunes enfants: (a)
manifestation par production de verbes plus génériques et/ou
polysémiques que ceux produits par les adultes; (b) manifestation par
production de verbes plus "approximatifs" que ceux produits par les
adultes.
Ensuite, la comparaison des verbes produits en français et en mandarin a
mis en évidence une différence linguistique dans la répartition de ces
modes de manifestation de la flexibilité sémantique: alors qu'en
français ils privilégient la production de verbes
génériques/polysémiques, en mandarin ils privilégient la production de
verbes approximatifs.
Enfin, un indice du degré d'acquisition du lexique des verbes (indice
REFLEX) a été construit sur la base des résultats exposés ci-dessus. Cet
indice prend en compte les deux modes de réalisation de la flexibilité
sémantique et permet la catégorisation différentielle des jeunes enfants
vs adultes en français et en mandarin.

------------------------------------------------------------------------
11H-->11H20
PAUSE

------------------------------------------------------------------------
11H20-->11H40
TITRE : Tmuse : un outil d'exploration lexicale
INTERVENANT : Benoit Gaillard (CLLE)
RESUME : Tmuse est un outil d'exploration lexicale qui propose une
visualisation du paysage sémantique de mots recherchés par
l'utilisateur. Sur la base de réseaux de synonymes, l'application
sélectionne, par Proxémie, les mots les plus sémantiquement proches de
la requête. Ces mots et leurs liens de synonymie sont représentés sous
la forme d'un graphe interactif en 3 dimensions. Les positions relatives
des sommets de ce graphe respectent au mieux leur proximité sémantique,
et les communautés de mots, détectées par des méthodes de clustering de
graphe, sont mises en valeurs par des colorations distinctes. Dans le
cas bilingue, l'application propose des traductions par Proxémie de
chacune de ces communautés. L'exposé détaillera les principes sur
lesquels l'application s'appuie, et en illustrera les différentes
fonctionnalités.

------------------------------------------------------------------------
11H40-->12H
TITRE : Kodex, un système de recherche d'information
INTERVENANT : Emmanuel Navarro (IRIT)
RESUME : Nous allons présenter ici Kodex, un système de recherche
d'information modulable qui classifie automatiquement les résultats
d'une recherche de documents. Kodex présente les documents retournés
pour une recherche, organisés en plusieurs groupes. Cette présentation
rend visible la polysémie de la requête par rapport à la collection de
documents, et aide l'utilisateur à affiner sa recherche. Pour cela Kodex
utilise une méthode de clustering de graphes bipartis reliant documents
et termes. Nous présenterons les grandes lignes du fonctionnement de
Kodex, ainsi que l'architecture logicielle modulable utilisée. Une
démonstration de l'application sera faite.

------------------------------------------------------------------------
12H-->14H
PAUSE

------------------------------------------------------------------------
14H-->14H30
TITRE : Utilisation d'un graphe de traduction pour la complétion
d'ontologies légères multilingues
INTERVENANT : Valérie Hanoka (ALPAGE)
RÉSUMÉ :
Nous allons présenter ici un outil de complétion d'ontologies légères
multilingue basé sur un gros graphe de traduction et de synonymie.
Ce graphe contient 9.10^5 nœuds représentant un couple (langue, mot) et
7.10^6 arcs de traduction ou synonymie. Au total, 548 langues sont
représentées, dont 20 langues disposant de plus de 10000 nœuds.
Parallèlement, nous disposons d'une ontologie légère multilingue de
couverture variable selon la langue. Nous présenterons plusieurs
algorithmes de complétion à même de proposer des candidats pour
l'extension d'ontologies dans chacune des langues: un premier algorithme
heuristique ayant fait l'objet d'une publication (Hanoka et Sagot, 2012)
et une adaptation du clustering local stochastique (Schaeffer, 2005)
permettant d'émettre des candidats y compris pour les langues rares.
Enfin, nous évoquerons le contexte d'utilisation du graphe de traduction
et de synonymie dans le cadre de la structuration de terminologies
multilingues extraites de corpus comparables dans plusieurs langues.

------------------------------------------------------------------------
14H30-->16H
TITRE : Quelles ressources sémantiques pour traiter la parole spontanée ?
INTERVENANT : Laurent Prevot (LPL)

RESUME : Le traitement automatique de l'oral spontané pose des questions
différentes de celui de l'écrit. A l'écrit, le recours aux ressources
sémantiques, comme les réseaux lexicaux, est maintenant bien établi
notamment grâce à l'existence de lexiques de qualité et de corpus de
grande taille. En passant à l'oral, la taille des corpus et l'adéquation
des lexiques et autres outils deviennent des problèmes cruciaux.
Concernant les corpus, tandis que la faible performance en
reconnaissance automatique sur de la parole spontanée n'autorise pas un
traitement classique des sorties de tels systèmes, le coût de
transcription manuelle resulte en des corpus d'une autre échelle que
ceux de l'écrit. Par ailleurs, les spécificités de l'oral spontané
requièrent dans le meilleur des cas une adaptation des ressources
traditionnelles.
Dans cet exposé, je montrerai à quels problèmes se heurtent des méthodes
utilisant les réseaux lexicaux utilisés sur des corpus d'oral spontané.
Dans ce contexte, j'aborderai plus spécifiquement les sujets suivants:
l'utilisation de ressources sémantiques pour le traitement des
disfluences et la segmentation et la classification des unités
discursives.

Français
Resume: 
Journée d'étude de l'Axe TAL de CLLE-ERSS jeudi 27 juin 2013.