Accueil du site > Français > Axes stratégiques > Masses de données et calcul
Cet axe concerne les différentes facettes du traitement et du calcul de données massives et couvre à la fois les infrastructures et les algorithmes. Dans ce contexte le caractère massif des données sera lié non seulement à la volumétrie mais aussi à la complexité de traitement, à la dynamicité et à la difficulté d’accès. La notion d’infrastructure recouvre l’ensemble des fonctions nécessaires à l’exploitation d’équipements, de logiciels ou de données en réseau. Ces fonctions couvrent les modèles, algorithmes et outils nécessaires à cette exploitation. Elle recouvre aussi bien des problèmes d’administration, de dimensionnement, de persistance, de performance que d’hétérogénéité.
Le contexte des recherches menées dans cet axe est donc caractérisé par des sources de données multiples, distribuées/réparties à grande échelle, et hétérogènes (structures, formats, logiciels, matériels,...), des serveurs mobiles et réactifs. D’autres facteurs importants concernent la volumétrie en données (du Toctets au Poctets), la dynamique du système (ressources du système : CPU, RAM, Bande Passante Réseau et E/S), et des sources de données (fréquences de mise à jour très rapides, versions,...). Les collections adressées ici (citons vidéo, texte, documents, données géométriques et géographiques, géo-localisées, données semi-structurées, ontologies, ressources terminologiques) sont complexes de par leur taille, leur irrégularité, leur hétérogénéité, leur dynamicité, leur distribution/répartition, leur bruit, etc. Le traitement des données numériques s’adresse quant à lui à des données simulées ou observées.
La problématique centrale de cet axe peut se décliner selon :
Un des aspects spécifiques de cet axe est lié à l’évolution des problématiques d’indexation et de recherche d’information, conduisant à considérer les différentes dimensions de l’adaptation (à l’utilisateur, au contexte, aux dispositifs, aux moteurs d’indexation disponibles, etc.) en particulier dans le domaine de la mobilité, et en lien avec les axes « Systèmes Embarqués » et « Systèmes Ambiants ». Ces différentes dimensions intègrent de bout en bout les étapes du process, i.e. les services, les requêtes, les données et métadonnées associées, les résultats et leur présentation/visualisation. Les processus de recherche de l’information doivent bien évidemment prendre en compte flexibilité et personnalisation, tout en maintenant une Qualité de Service.
Notre effort porte plus particulièrement sur
Outre un lien fort applicatif avec les axes « Systèmes Embarqués » et « Systèmes Ambiants » évoqué ci-dessus, on notera une complémentarité mais aussi un fort recouvrement de l’axe « Masse de Données et Calcul » avec le thème "Gestion de données biomédicales, infrastructure d’accès et de traitement" de l’axe « Systèmes Informatiques pour la Santé », qui s’intéresse à la problématique de la gestion des données médicales dans un environnement distribué.
L’axe « Traitement des masses de données et calcul » est fortement soutenu à différents niveaux, au national à travers les programmes ANR (Masses de Données, Contenus et interactions, Calcul Intensif et Simulations). C’est également une préoccupation récurrente des appels à projets européens, en particulier dans les programmes FP6 (moteurs de recherche contenus audiovisuel, quelques projets européens sur ce sujet se sont regroupés pour former l’ESSI et dans le FP7 challenge 4 Digital libraries and content). Au niveau international, un rapport récent intitulé "Towards 2020 Science" met clairement dans la liste des challenges, la problématique liée au traitement de l’hétérogénéité des données et l’extraction de la sémantique à partir des données. Par ailleurs, la simulation et le calcul restent au coeur des grands programmes de recherche américains et japonais.
L’activité proposée dans cet axe s’appuiera sur une compétence forte en stockage et accès aux données, en indexation de données audiovisuelles, en traitement des connaissances, en optimisation numérique et algèbre linéaire ainsi qu’en intergiciels pour la grille.
Le développement de l’axe « Masses de Données et Calcul » pourra s’appuyer sur l’existence des plate formes OSIRIM et Grid-Mip (GRID-5000) ainsi que sur projets et collaborations étroites avec des partenaires internationaux (Japon, USA).
Les applications dans lesquelles l’axe trouve un terrain de validation ou desquelles il tire ses problématiques sont diverses : culture et patrimoine, médical et biomédical, géoscience, spatial, météorologie, géodésie, mécanique, vidéo surveillance,...