Action stratégique

Calcul, Masses de Données, IA

Responsable :  Nathalie AUSSENAC-GILLES

Cette action stratégique concerne les différentes facettes du traitement et du calcul de données massives et couvre à la fois les infrastructures et les algorithmes. Dans ce contexte le caractère massif des données sera lié non seulement à la volumétrie mais aussi à la complexité de traitement, à la dynamicité et à la difficulté d’accès. La notion d’infrastructure recouvre l’ensemble des fonctions nécessaires à l’exploitation d’équipements, de logiciels ou de données en réseau. Ces fonctions couvrent les modèles, algorithmes et outils nécessaires à cette exploitation. Elle recouvre aussi bien des problèmes d’administration, de dimensionnement, de persistance, de performance que d’hétérogénéité.

Le contexte des recherches menées dans le cadre de cette action est donc caractérisé par des sources de données multiples, distribuées/réparties à grande échelle, et hétérogènes (structures, formats, logiciels, matériels,…), des serveurs mobiles et réactifs. D’autres facteurs importants concernent la volumétrie en données (du Toctets au Poctets), la dynamique du système (ressources du système : CPU, RAM, Bande Passante Réseau et E/S), et des sources de données (fréquences de mise à jour très rapides, versions,…). Les collections adressées ici (citons vidéo, texte, documents, données géométriques et géographiques, géo-localisées, données semi-structurées, ontologies, ressources terminologiques) sont complexes de par leur taille, leur irrégularité, leur hétérogénéité, leur dynamicité, leur distribution/répartition, leur bruit, etc. Le traitement des données numériques s’adresse quant à lui à des données simulées ou observées.

La problématique centrale de l’action peut se décliner selon :

  • des infrastructures adéquates (middleware, grille, P2P, réseau,…),
  • des modèles et des méthodes pour la représentation et le traitement de ces masses de données (stockage, calcul, simulation, optimisation, indexation,…)
  • de nouveaux modes d’interactions et d’utilisation (homme-données) : web sémantique, web 2.0, multimodalité, réalité augmentée, virtuelle,….

Un des aspects spécifiques de cet axe est lié à l’évolution des problématiques d’indexation et de recherche d’information, conduisant à considérer les différentes dimensions de l’adaptation (à l’utilisateur, au contexte, aux dispositifs, aux moteurs d’indexation disponibles, etc.) en particulier dans le domaine de la mobilité, et en lien avec les axes « Systèmes Embarqués » et « Systèmes Ambiants ». Ces différentes dimensions intègrent de bout en bout les étapes du process, i.e. les services, les requêtes, les données et métadonnées associées, les résultats et leur présentation/visualisation. Les processus de recherche de l’information doivent bien évidemment prendre en compte flexibilité et personnalisation, tout en maintenant une Qualité de Service.

Notre effort porte plus particulièrement sur

  • d’une part, l’élaboration de modèles pour la représentation, l’accès, l’analyse, la fouille et la manipulation de collections d’informations complexes. Sur des données textuelles (documents disponibles sur le Web ou produits par des domaines spécifiques (astronomies, biologie …) nous étudions des outils de recherche capables de rechercher l’information pertinente. Dans ce contexte la prise en compte du sens de l’information revient àcouvrir la sémantique véhiculée par l’information aussi bien au niveau de la représentation que de l’accès.
  • d’autre part, le traitement de données (indexation, simulation, assimilation) et les outils logiciels d’accès aux ressources. Le travail sur les intergiciels de grille doit se poursuivre pour notamment offrir une grande robustesse d’accès au ressources logicielles (services) et ce indépendamment des risques de panne matériel. Les approches algorithmiques pour la simulation numérique doivent par contre être revisitées pour prendre en compte l’évolution des matériels (machines multicœurs et grille de calcul) : le paradigme, faire moins d’opérations pour aller plus vite n’est plus valide. Finalement, en analyse automatique de données audiovisuelles, notre effort portera sur les aspects indexation temps réels de flux, la fusion d’index audio et vidéo ainsi qu’au calcul de distances entre contenus audiovisuels.

Journée de l’axe stratégique “Masse de données et calcul” de l’IRIT

Cette journée est destinée à faire connaître des travaux de l’IRIT auprès d’entreprise et laboratoires ayant à gérer des gros volumes de données complexes, ou des traitements sur ces données. Et inversement, nous souhaitons rencontrer des “producteurs de données” et connaître leurs besoins en vue d’éventuelles collaborations. Un temps de table ronde permettra à ceux qui n’ont pas un exposé prévu de présenter leurs données et leurs besoins en la matière.

Méga-données : questions de recherche en Midi-Pyrénées, le 20 nov. 2014

L’axe “masses de données et calcul” de l’IRIT organise une journée scientifique sur le thème “Les méga-données en Midi-Pyrénées : questions de recherche”