![]() |
|
| |
|
Les Voisins De Le Monde est une base lexicale
distributionnelle du français construite entièrement automatiquement,
à l'aide d'outils de Traitement Automatique des Langues, à
partir d'un corpus comprenant l'ensemble des articles du quotidien Le Monde
sur une période de 10 ans (1991-2000). Le corpus Le Monde a été
obtenu auprès de l'agence ELRA.
Il a été étiqueté au niveau morphosyntaxique
par Treetagger, de l'Université
de Stuttgart. L'extraction des contextes syntaxiques a été
réalisée par la chaîne d'analyse syntaxique Syntex,
développée dans le cadre d'une collaboration entre le laboratoire
ERSS, unité
mixte de recherche du CNRS
et de l'Université
Toulouse le Mirail, et la société Synomia.
L'analyse distributionnelle a été réalisée
par l'outil Upery développé à l'ERSS. La base de
données est hébergée sur un serveur de l'Institut
de Recherche en Informatique de Toulouse.
Pour chaque unité lexicale, on donne accès :
|
| |
| Le corpus.
Le corpus, dit corpus « LM10 »,
a été préparé, à partir de fichiers obtenus
auprès de l'agence ELRA, à l'aide de programmes de nettoyage,
de balisage et de signalisation, réalisés par Benoît Habert,
du LIMSI, qui permettent
de transformer les fichiers initiaux en un corpus effectivement « traitable »
par des outils de Traitement Automatique des Langues. Le corpus LM10 comporte
environ 200 millions de mots. Analyse syntaxique. Le corpus LM10 a d'abord été étiqueté morphosyntaxiquement par l'outil Treetagger, développé à l'Université de Stuttgart, puis analysé syntaxiquement par l'outil Syntex, développé au sein de l'ERSS. Syntex est un analyseur syntaxique de corpus, qui prend en entrée un corpus de phrases étiquetées, et calcule pour chaque phrase les relations de dépendance syntaxique entre les mots (sujet, complément d'objet, complément prépositionnel, épithète, etc.). À partir de l'analyse syntaxique sont extraits des triplets <recteur, relation, régi> qui servent de base au calcul des cooccurrents syntaxiques et des voisins distributionnels. Par exemple, de l'analyse syntaxique de la phrase « il mange la souris » est extrait le triplet <manger, obj, souris>. Au cours de cette étape d'extraction de triplets, un certain nombre de normalisations syntaxiques sont effectuées :
Analyse distributionnelle. La méthode d'analyse distributionnelle que nous développons distingue deux types d'unités : les prédicats et les arguments. À chaque triplet extrait <recteur, relation, régi> correspond un couple <prédicat, argument> : le prédicat est constitué du recteur auquel on « accole » la relation syntaxique, et l'argument est le régi (auquel on accole le cas échéant la relation "-"). Les principales relations sont : suj, obj, les prépositions (de, à, dans, ...), et mod, pour la relation épithète. Exemple :
Pour chaque couple (cooccurrent) syntaxique, on calcule son information mutuelle. Le module d'analyse distributionnelle Upery procède à une double analyse distributionnelle : il construit des couples de voisins distributionnels en rapprochant d'une part les prédicats qui se construisent avec les mêmes arguments, et d'autre part les arguments qui se construisent avec les mêmes prédicats. Par exemple, le prédicat régler_obj a comme voisins les prédicats résoudre_obj, solution_à et règlement_de, car ces prédicats se construisent de façon régulière avec les arguments différend, contentieux, problème politique, conflit, etc. L'argument conflit a comme voisins les arguments crise, affrontement et guerre, car ces arguments se construisent de façon régulière avec les prédicats déchirer_suj, déclenchement_de , rallumer_obj, etc. Pour calculer la proximité entre prédicats (ou entre arguments), le module Upery utilise une mesure de Jaccard. Soit n1 le nombre d'arguments du premier prédicat, soit n2 le nombre d'arguments du second prédicat, soit a le nombre d'arguments communs aux deux prédicats, la proximité entre les deux prédicats est donnée par le coefficient de jaccard : a/(n1+n2-a). Idem pour calculer la proximité entre deux arguments. Les couples de voisins présents dans la base de données sont ceux pour lesquels la proximité dépasse un cerain seuil (0.1). |
| |
| Merci à Benoît Habert du LIMSI
de nous avoir permis d'utiliser les programmes de préparation du
corpus. La base de donnée "Les Voisins De Le Monde" a été réalisée à l'ERSS. Elle est hébergée au sein de la plate forme RFIEC, mise en place dans le cadre d'une collaboration ERSS/IRIT dans les domaines de la Recherche d'Information et du Traitement Automatique du Langage. La chaîne d'analyse syntaxique utilisée dans cette expérience, au sein de laquelle sont intégrés le Treetagger et Syntex, a été réalisée dans le cadre d'une collaboration entre l'ERSS et la société Synomia. |