Nos partenaires

CNRS

Rechercher





Accueil du site > Français > Projets, plateformes > Actions transversales (projets, plateformes) > Plateformes > OSIRIM

Problématique

OSIRIM est un projet fédératif conduit par les équipes de recherche SAMOVA et SIG, et principalement soutenu par le gouvernement Français, la région Midi-Pyrénées et le Centre National de la Recherche Scientifique (CNRS). Le but est de proposer un environnement homogène pour la recherche sur l’indexation et la recherche d’information dans des contenus multimédias. Cela correspond pour l’essentiel à la mise en place d’une architecture matérielle et logicielle permettant de construire, tester et évaluer facilement des chaînes plus ou moins complexes d’outils atomiques visant à étiqueter et à retrouver des contenus textuels, audio ou vidéo.

Cette plateforme rassemblera entre autres un ensemble de corpus, d’outils d’évaluation, de logiciels d’analyse, de moteurs de recherche dans le principal but d’offrir un espace de mutualisation où les chercheurs pourront échanger leurs connaissances dans le but de bénéficier de résultats obtenus dans d’autres laboratoires.

 

Contexte

Les systèmes d’information automatiques couvrent progressivement la totalité du procédé de production depuis la génération de contenu au stockage. Dans un même temps, l’augmentation des outils d’édition et de production proposés, et la possibilité de créer des réseaux communautaires ouverts sur le Web conduisent à un accroissement des ressources multimédia disponibles pour un utilisateur final. Deux des principaux défis renvoyés à la recherche scientifique dans ce domaine sont la possibilité de prendre en considération l’échelle et la diversité de ces données. Malheureusement, dans un contexte de laboratoire, l’évaluation de technologies sur une base de documents multimédias de grande échelle n’est possible que dans de très rares cas. C’est pourquoi la complexité des traitements à tendance à être ignorée bien que le but de ces processus d’évaluation soit d’identifier des solutions réalistes. Proposer un cadre homogène pour prendre en charge la diversité de l’information (en termes de moyen d’expression : le langage, le style, le genre, le champ lexical, le style aussi bien qu’en termes de format : vidéo, audio, texte ou graphique) reste un problème à part entière. La principale difficulté à surmonter sur ce sujet est liée à la dispersion des compétences scientifiques requises, généralement pas toutes présentes dans une même structure de recherche.

 

Une plateforme ouverte

Un des buts, entre autres, est de proposer une plateforme permettant d’améliorer les démarches scientifiques dans le domaine de l’indexation et de la recherche d’information multimédia. La grande diversité des communautés de recherche concernées et la grande diversité de des approches proposées amènent à la formulation de propositions qu’il est quasiment impossible de reproduire par tout autre groupe de travail. Une modification apportée sur une chaîne de traitement complexe dans le but d’en améliorer les performances ne peut être confrontée de manière rigoureuse à la même modification dans une autre chaîne de traitement car généralement ces deux chaînes ne pourront exister que sur des sites de recherche différents. Offrir à la communauté de recherche la possibilité d’échanger et d’évaluer les outils de chacun apporte une garantie sur la possibilité de reproduire et de contrôler toute expérimentation, et ainsi permet de valider toute amélioration ou idée nouvelle.

Ce projet doit conduire au développement d’un outil d’expérimentation rassemblant et offrant un accès aux ressources requises par les travaux de recherche et autorisant le développement d’applications plus ambitieuses que ce qui est possible à l’échelle d’une structure de recherche conventionnelle. Plus précisément, elle devrait proposer :

  • un ensemble de ressources partagées incluant :
    • des composants génériques utilisés pour l’indexation et la recherche d’information (contrôleurs syntaxiques, lemmatiseurs, moteurs de recherche, transcripteurs de requêtes, transcodeurs, outils de segmentation de base, outils de traitement du signal et de l’image de base, etc)
    • des ressources linguistiques
    • des bancs d’essai standards ou des corpus annotés
    • des résultats intermédiaires (fichiers d’index)
    • des outils d’évaluation pour confronter les résultats avec une vérité terrain
    • la publication des résultats expérimentaux significatifs (pour promouvoir les méthodes et les technologies)
    • des outils d’information pour l’identification des contributions des différents groupes de recherche
  • un environnement technique pour les expérimentations. Au moins trois types d’activités devraient être hébergées par cette plateforme :
    • la validation de méthodes de recherche d’information et d’indexation
    • l’intégration de travaux de recherche de différents domaines comme la recherche d’information, l’indexation multimédia, l’intelligence artificielle, le traitement automatique de la langue naturelle, ...
    • la promotion de travaux de recherche à travers des solutions de publication sur le portail web de la plateforme, et un répertoire identifiant l’ensemble des participants et leurs domaines de compétence pour construire potentiellement des collaborations plus marquées au sein de projets structurés.
  • Des solutions pour construire des réseaux de compétence. A un stade ultérieur, cette plateforme devrait évoluer sous une forme distribuée pour permettre aux participants de mettre à disposition sur la plateforme des outils qui ne pourraient pas être installés sur le serveur central. Cela pourrait être utile pour des évaluations ponctuelles ou pour résoudre les problèmes de droit sur la distribution de technologies.