Action stratégique

Calcul, Masses de Données, IA

Responsables :  Thomas PELLEGRINI et Franck RAVAT

Voir la page

Cette action stratégique concerne les différentes facettes du traitement et du calcul de données massives et couvre à la fois les infrastructures et les algorithmes. Dans ce contexte le caractère massif des données sera lié non seulement à la volumétrie mais aussi à la complexité de traitement, à la dynamicité et à la difficulté d’accès. La notion d’infrastructure recouvre l’ensemble des fonctions nécessaires à l’exploitation d’équipements, de logiciels ou de données en réseau. Ces fonctions couvrent les modèles, algorithmes et outils nécessaires à cette exploitation. Elle recouvre aussi bien des problèmes d’administration, de dimensionnement, de persistance, de performance que d’hétérogénéité.

Le contexte des recherches menées dans le cadre de cette action est donc caractérisé par des sources de données multiples, distribuées/réparties à grande échelle, et hétérogènes (structures, formats, logiciels, matériels,…), des serveurs mobiles et réactifs. D’autres facteurs importants concernent la volumétrie en données (du Toctets au Poctets), la dynamique du système (ressources du système : CPU, RAM, Bande Passante Réseau et E/S), et des sources de données (fréquences de mise à jour très rapides, versions,…). Les collections adressées ici (citons vidéo, texte, documents, données géométriques et géographiques, géo-localisées, données semi-structurées, ontologies, ressources terminologiques) sont complexes de par leur taille, leur irrégularité, leur hétérogénéité, leur dynamicité, leur distribution/répartition, leur bruit, etc. Le traitement des données numériques s’adresse quant à lui à des données simulées ou observées.

La problématique centrale de l’action peut se décliner selon :

  • des infrastructures adéquates (middleware, grille, P2P, réseau,…),
  • des modèles et des méthodes pour la représentation et le traitement de ces masses de données (stockage, calcul, simulation, optimisation, indexation,…)
  • de nouveaux modes d’interactions et d’utilisation (homme-données) : web sémantique, web 2.0, multimodalité, réalité augmentée, virtuelle,….

Un des aspects spécifiques de cet axe est lié à l’évolution des problématiques d’indexation et de recherche d’information, conduisant à considérer les différentes dimensions de l’adaptation (à l’utilisateur, au contexte, aux dispositifs, aux moteurs d’indexation disponibles, etc.) en particulier dans le domaine de la mobilité, et en lien avec les axes « Systèmes Embarqués » et « Systèmes Ambiants ». Ces différentes dimensions intègrent de bout en bout les étapes du process, i.e. les services, les requêtes, les données et métadonnées associées, les résultats et leur présentation/visualisation. Les processus de recherche de l’information doivent bien évidemment prendre en compte flexibilité et personnalisation, tout en maintenant une Qualité de Service.

Notre effort porte plus particulièrement sur

  • d’une part, l’élaboration de modèles pour la représentation, l’accès, l’analyse, la fouille et la manipulation de collections d’informations complexes. Sur des données textuelles (documents disponibles sur le Web ou produits par des domaines spécifiques (astronomies, biologie …) nous étudions des outils de recherche capables de rechercher l’information pertinente. Dans ce contexte la prise en compte du sens de l’information revient àcouvrir la sémantique véhiculée par l’information aussi bien au niveau de la représentation que de l’accès.
  • d’autre part, le traitement de données (indexation, simulation, assimilation) et les outils logiciels d’accès aux ressources. Le travail sur les intergiciels de grille doit se poursuivre pour notamment offrir une grande robustesse d’accès au ressources logicielles (services) et ce indépendamment des risques de panne matériel. Les approches algorithmiques pour la simulation numérique doivent par contre être revisitées pour prendre en compte l’évolution des matériels (machines multicœurs et grille de calcul) : le paradigme, faire moins d’opérations pour aller plus vite n’est plus valide. Finalement, en analyse automatique de données audiovisuelles, notre effort portera sur les aspects indexation temps réels de flux, la fusion d’index audio et vidéo ainsi qu’au calcul de distances entre contenus audiovisuels.

DeepLearning@IRIT

1er Juillet 2021 Auditorium J. Herbrand

9h00 -09h10Accueil, Thomas Pellegrini, Franck Ravat
09h10 – 10h00Joao MARQUES-SILVA, Formal Reasoning Methods in Explainable AI
The expected applications of machine learning (ML) in safety critical applications hinge on systems that are robust in their operation and that can be trusted. This talk overviews recent efforts on applying automated reasoning tools in explaining non-interpretable (black-box) ML models. Concretely, the talk details the computation of rigorous explanations of black-box models, and how these serve for assessing the quality of widely used heuristic explanation approaches. The talk also overviews duality properties between different kinds of rigorous explanation. Finally, the talk briefly overviews ongoing work on mapping tractable explainability.
Présentation pdf en téléchargement
10h00 -10h15PAUSE
Département Signaux et Images (SI)
10h15 -11h15SAMOVA – Thomas PELLEGRINI – Deep learning pour l’analyse de documents sonores avec peu de données
Présentation pdf en téléchargement
STORM – Nicolas MELLADO – Activités en deep learning de l’équipe STORM
Présentation pdf en téléchargement
MINDS – Adrian BASARAB – Domain adaptation based on subspace projection and GANs for Pneumonia Diagnosis in a small Chest X-ray Dataset
Présentation pdf en téléchargement
SC – Cédric FÉVOTTE – Activités en deep learning de l’équipe SC
Présentation pdf en téléchargement
11h15 – 11H20PAUSE
Département Intelligence Artificielle (IA)
11h20 – 11h50MELODI – Philippe MULLER – Deep learning pour le TAL et l’ingénierie des
connaissances
Présentation pdf en téléchargement
ADRIA – Mathieu SERRURIER – Robustesse, transport optimal
11h50 – 11H55PAUSE
Département Architecture, Systèmes, Réseaux (ASR)
11h55 – 12h20RMESS – Gentian JAKLLARI – Machine learning for cyber-physical systems
Présentation pdf en téléchargement
SEPIA – Patricia STOLF – Machine learning pour l’efficacité énergétique
Présentation pdf en téléchargement
12h20 –14h00DÉJEUNER
Département Gestion de données (GD)
14h00 – 14h30SIG – Josiane MOTHE – Apprentissage automatique et accès à l’information
IRIS – Jose G MORENO – Activités en deep learning de l’équipe IRIS
Présentation pdf en téléchargement
14h30 – 14h35PAUSE
Département Calcul Intensif, Simulation, Optimisation (CISO)
14h35 – 15h05APO – Serge GRATTON – ML sous contrainte physique et embarquabilité
REVA – Hervé LUGA – Apprentissage bio-inspiré
Présentation pdf en téléchargement
15h05 – 15h20PAUSE
15h20 – 15h35ANITI – Nicolas ASHER
15h35 – 16h30Table Ronde Bilan et perspective

24 janvier 2020 : demi-journée “Quelles plateformes de calcul pour quels usages ?”

Avant 2020

2019 : Semestre thématique CIMI sur l’Optimisation ; plusieurs réponses à l’appel à projets ANR Flash sur les Données (2 proviennent des groupes DataNoos) ; organisation du séminaire ODIM (Ontologies, données et informatique médicale) avec le DAS Santé (2 keynotes : M. Musen de Stanford et J.F. Ethier de l’Université de Sherbrooke et 6 conférences de l’IRIT)

2018 : organisation d’un séminaire “Deep Learning à l’IRIT” (présentations de 9 groupes de l’IRIT et 10 posters de doctorat présentant des recherches utilisant ou portant sur l’apprentissage machine) ; nous avons accueilli une délégation suédoise du programme AI WASP (Wallenberg AI, Autonomous Systems and Software Program) (4 présentations, 30 posters de doctorat, 2 présentations de l’IRIT). En mai 2018 a débuté l’alliance scientifique DataNoos financée par le RTRA STAE (19 laboratoires et centres de données de Toulouse) et dirigée par l’IRIT pour structurer la communauté académique de Toulouse et promouvoir la science ouverte en accord avec les recommandations du RDA

2017 : organisation d’un séminaire “science des données à l’IRIT” sur “la qualité des données, les données et la prise de décision” (9 intervenants) ; intervention lors d’un séminaire ESOF sur “Big Data and health” ; enquête pour cartographier les personnes, groupes, thèses et projets de recherche de l’IRIT liés aux big data et à l’IA ; contribution au projet de cartographie lancé par le RTRA STAE en relation avec l’initiative “Data economy”

2016 : participation aux Innovation IT Days ; organisation d’un séminaire scientifique CIMI “science des données à l’IRIT” (3 conférences IRIT, 1 keynote par Patrick Valduriez et 8 ateliers sur des types de données spécifiques) ; organisation de l’atelier ENADOC-MADICS à l’IRIT ; publication d’un numéro spécial de Noir Sur Blanc (revue IRIT) sur la science des données

2015 : présentation de “masses de données et calcul à l’IRIT” lors des Innovation IT Days (salon industriel) ; 2 jours d’atelier CIMI sur les Big Data (organisation conjointe avec le Master CMI-SID, soutenu par GDR MADICS et MascotNUM) : 3 keynotes (projets MADICS) et 10 conférences académiques ou d’entreprises

Nov 2014 : Séminaire scientifique CIMI “Big data, questions de recherche en Midi-Pyrénées” (organisation conjointe IRIT-IMT). 10 intervenants de 10 laboratoires de Toulouse (informatique, mathématiques, biologie, aéronautique et espace) et un conférencier principal : Mokrane BOUZEGHOUB (MASTODONS et GDR MADICS)

Formation Introduction au Deep Learning en ligne, par CNRS – Resinfo / SARI – DevLOG, 2021