Présentation du projet SemPedia

Le web des données (Linked Open Data) a pour vocation de publier à grande échelle des données structurées sur le web et de les relier, permettant ainsi aux machines d'interpréter et d'exploiter ces informations. Ce réseau est devenu un vecteur de développement et de diffusion incontournable. Par exemple, le moteur Google utilise ce type de donnée pour désambiguïser les requêtes et afficher une synthèse des connaissances associées aux entités répondant à la requête. Dans le domaine médical, ce type de ressource facilite l'exploitation automatique de résumés scientifiques. Les données publiées proviennent généralement de l'exploitation automatique de textes structurés ou du texte rédigé, et de bases de données. SemPedia vise à enrichir le web des données pour la langue française, car ce type de ressource fait encore défaut aujourd'hui. Pour cela, nous proposons un ensemble de méthodes et d'outils exploitant les documents semi-structurés, dans un contexte où, grâce au web, on peut désormais disposer de gigantesques volumes documentaires. Cet objectif soulève des problèmes de traitement massif de données textuelles du web, et participe à la mise au point de ressources sémantiques pour l'accès aux connaissances du web. Le projet consiste à enrichir la ressource sémantique DBpedia en français. A l'instar de la version anglaise, cette ressource est actuellement alimentée par des informations extraites de données structurées (comme les infobox, les catégories, les liens, etc.) provenant des pages de Wikipedia en français. De par la nature des connaissances que cette ressource fédère, et du fait qu'elle adopte les normes du Linked Open Data et du Web sémantique, elle est vouée à jouer un rôle clé dans une large gamme d'applications. Notre contribution consistera à l'alimenter par de nouvelles méthodes, exploitant plus directement les contenus textuels semi-structurés de l'encyclopédie.

Equipes impliquées

Financement

  • Communauté d'Universités et d'Établissements Toulouse
  • Région Midi-Pyrénées