Accueil ] [ Prédicats ] [ Arguments ]
À propos ] [ Mention légale ] [ Contacts ]
Licence Creative Commons - Certains droits réservés
   Les Voisins De Le Monde
  Présentation

    Les Voisins De Le Monde est une base lexicale distributionnelle du français construite entièrement automatiquement, à l'aide d'outils de Traitement Automatique des Langues, à partir d'un corpus comprenant l'ensemble des articles du quotidien Le Monde sur une période de 10 ans (1991-2000). Le corpus Le Monde a été obtenu auprès de l'agence ELRA. Il a été étiqueté au niveau morphosyntaxique par Treetagger, de l'Université de Stuttgart. L'extraction des contextes syntaxiques a été réalisée par la chaîne d'analyse syntaxique Syntex, développée dans le cadre d'une collaboration entre le laboratoire ERSS, unité mixte de recherche du CNRS et de l'Université Toulouse le Mirail, et la société Synomia. L'analyse distributionnelle a été réalisée par l'outil Upery développé à l'ERSS. La base de données est hébergée sur un serveur de l'Institut de Recherche en Informatique de Toulouse.

Note :

  • Les résultats ont été obtenus entièrement automatiquement, ils n'ont pas été validés manuellement et comportent donc une part d'erreur inévitable ;
  • Les associations obtenues à travers les liens de voisinage ne reflètent pas nécessairement les opinions du journal Le Monde ; elles peuvent provenir par exemple de passages cités et critiqués par Le Monde.


Pour chaque unité lexicale, on donne accès :
  • à ses cooccurrents syntaxiques.
    Par exemple, le nom peur apparaît de façon très régulière dans les contextes syntaxiques trembler de ~, frissonner de ~, ~ tenailler, exorciser ~, etc.

  • à ses voisins distributionnels.
    Par exemple le nom traité a pour voisins convention, accord, constitution car tous ces noms ont comme cooccurrents syntaxiques : stipulation de ~, ratifier ~, renégociation de ~, ratification de ~, signataire de ~, signature de ~, parapher ~, etc.


  Méthode
Le corpus. Le corpus, dit corpus « LM10 », a été préparé, à partir de fichiers obtenus auprès de l'agence ELRA, à l'aide de programmes de nettoyage, de balisage et de signalisation, réalisés par Benoît Habert, du LIMSI, qui permettent de transformer les fichiers initiaux en un corpus effectivement « traitable » par des outils de Traitement Automatique des Langues. Le corpus LM10 comporte environ 200 millions de mots.

Analyse syntaxique. Le corpus LM10 a d'abord été étiqueté morphosyntaxiquement par l'outil Treetagger, développé à l'Université de Stuttgart, puis analysé syntaxiquement par l'outil Syntex, développé au sein de l'ERSS. Syntex est un analyseur syntaxique de corpus, qui prend en entrée un corpus de phrases étiquetées, et calcule pour chaque phrase les relations de dépendance syntaxique entre les mots (sujet, complément d'objet, complément prépositionnel, épithète, etc.). À partir de l'analyse syntaxique sont extraits des triplets <recteur, relation, régi> qui servent de base au calcul des cooccurrents syntaxiques et des voisins distributionnels. Par exemple, de l'analyse syntaxique de la phrase « il mange la souris » est extrait le triplet <manger, obj, souris>. Au cours de cette étape d'extraction de triplets, un certain nombre de normalisations syntaxiques sont effectuées :
  • intégration de la préposition : Il mange avec les doigts -> <manger, avec, doigt> ;
  • distribution de la coordination : Il mange la pomme et la poire -> <manger, obj, pomme>, <manger, obj, poire> ;
  • traitement du passif : la pomme a été mangée -> <manger, obj, pomme> ;
  • traitement de l'antécédence relative : Jean qui dort -> <dormir, suj, Jean> ;
  • traitement des structures à contrôle de l'infinitif : Jean décide de nager -> <nager, suj, Jean> ; Il ordonne à Marie de travailler -> <travailler, suj, Marie>.

Analyse distributionnelle. La méthode d'analyse distributionnelle que nous développons distingue deux types d'unités : les prédicats et les arguments. À chaque triplet extrait <recteur, relation, régi> correspond un couple <prédicat, argument> : le prédicat est constitué du recteur auquel on « accole » la relation syntaxique, et l'argument est le régi (auquel on accole le cas échéant la relation "-"). Les principales relations sont : suj, obj, les prépositions (de, à, dans, ...), et mod, pour la relation épithète. Exemple :
  • <manger, obj, pomme> -> prédicat : manger_obj, argument : pomme
  • <manger, avec, doigt> -> prédicat : manger_avec, argument : doigt
  • <pomme, mod, rouge> -> prédicat : pomme_mod, argument : rouge


Pour chaque couple (cooccurrent) syntaxique, on calcule son information mutuelle.
Le module d'analyse distributionnelle Upery procède à une double analyse distributionnelle : il construit des couples de voisins distributionnels en rapprochant d'une part les prédicats qui se construisent avec les mêmes arguments, et d'autre part les arguments qui se construisent avec les mêmes prédicats. Par exemple, le prédicat régler_obj a comme voisins les prédicats résoudre_obj, solution_à et règlement_de, car ces prédicats se construisent de façon régulière avec les arguments différend, contentieux, problème politique, conflit, etc. L'argument conflit a comme voisins les arguments crise, affrontement et guerre, car ces arguments se construisent de façon régulière avec les prédicats déchirer_suj, déclenchement_de , rallumer_obj, etc.

Pour calculer la proximité entre prédicats (ou entre arguments), le module Upery utilise une mesure de Jaccard. Soit n1 le nombre d'arguments du premier prédicat, soit n2 le nombre d'arguments du second prédicat, soit a le nombre d'arguments communs aux deux prédicats, la proximité entre les deux prédicats est donnée par le coefficient de jaccard : a/(n1+n2-a). Idem pour calculer la proximité entre deux arguments. Les couples de voisins présents dans la base de données sont ceux pour lesquels la proximité dépasse un cerain seuil (0.1).


  Contributeurs et remerciements
Merci à Benoît Habert du LIMSI de nous avoir permis d'utiliser les programmes de préparation du corpus.

La base de donnée "Les Voisins De Le Monde" a été réalisée à l'ERSS. Elle est hébergée au sein de la plate forme RFIEC, mise en place dans le cadre d'une collaboration ERSS/IRIT dans les domaines de la Recherche d'Information et du Traitement Automatique du Langage.

La chaîne d'analyse syntaxique utilisée dans cette expérience, au sein de laquelle sont intégrés le Treetagger et Syntex, a été réalisée dans le cadre d'une collaboration entre l'ERSS et la société Synomia.