Tâche exploratoire sur le corpus TALN

Présentation

Cette deuxième tâche est une tâche exploratoire qui permettra d'examiner plus en détail les résultats de méthodes distributionnelles sur un corpus spécialisé de petite taille.

Pour cela, nous proposons aux participants d'utiliser un corpus commun : il s'agit d'un corpus constitué d'une sélection d'articles en français issus des conférences TALN et RECITAL sur la période 2007 à 2013. Il contient environ 2 millions de mots répartis dans 584 articles. Ce corpus est la propriété de l'ATALA ; il a été rassemblé par Florian Boudin (LINA, Université de Nantes) et mis en forme par Ludovic Tanguy (CLLE-ERSS, Université de Toulouse). Il est disponible et utilisable librement à des fins de recherche à l'adresse suivante : http://redac.univ-tlse2.fr/corpus/taln.html. L'archive contient un descriptif complet du contenu et des licences qui régissent ces données.

Nous invitons les participants à déployer une ou plusieurs techniques d'analyse distributionnelle sur ce corpus, avec les prétraitements et annotations de leur choix. Chacun pourra analyser ce corpus selon ses objectifs propres, et étudier les phénomènes sémantiques qui lui paraissent les plus pertinents (mise au jour de la polysémie, d'une organisation terminologique, étude de relations sémantiques spécifiques, compositionalité, etc.). Nous demandons cependant, pour illustrer la démarche et les résultats, de privilégier la discussion autour d'un ensemble de mots que nous avons sélectionnés dans le but de faciliter les échanges.

Les mots que nous avons sélectionnés sont les suivants :

  • 1 verbe : calculer
  • 2 adjectifs : complexe, précis
  • 5 noms : fréquence, graphe, méthode, sémantique, trait

Par ailleurs, nous proposons à ceux qui le souhaitent une version du corpus analysée syntaxiquement par l'analyseur Talismane (Urieli et Tanguy 2013) disponible ici : http://redac.univ-tlse2.fr/applications/talismane.html. Le format de sortie est décrit ici : http://redac.univ-tlse2.fr/corpus/taln.html

Les participants à la tâche 2 devront soumettre un article qui présente leur problématique, la façon dont la sémantique distributionnelle contribue à leur étude et les résultats qu'ils ont obtenus.

Calendrier

Consultez les dates importantes.

Références

Florian Boudin. TALN Archives : une archive numérique francophone des articles de recherche en Traitement Automatique de la Langue. Actes de TALN, 2013.

Assaf Urieli et Ludovic Tanguy. L'apport du faisceau dans l'analyse syntaxique en dépendances par transitions : études de cas avec l'analyseur Talismane. Actes de TALN, 2013.