Action stratégique Calcul, Données, IA

Responsables :  José MORENO et Thomas PELLEGRINI

Cette action stratégique concerne les différentes facettes du traitement et du calcul de données massives et couvre à la fois les infrastructures et les algorithmes. Dans ce contexte le caractère massif des données sera lié non seulement à la volumétrie mais aussi à la complexité de traitement, à la dynamicité et à la difficulté d’accès. La notion d’infrastructure recouvre l’ensemble des fonctions nécessaires à l’exploitation d’équipements, de logiciels ou de données en réseau. Ces fonctions couvrent les modèles, algorithmes et outils nécessaires à cette exploitation. Elle recouvre aussi bien des problèmes d’administration, de dimensionnement, de persistance, de performance que d’hétérogénéité.

Le contexte des recherches menées dans le cadre de cette action est donc caractérisé par des sources de données multiples, distribuées/réparties à grande échelle, et hétérogènes (structures, formats, logiciels, matériels,…), des serveurs mobiles et réactifs. D’autres facteurs importants concernent la volumétrie en données (du Toctets au Poctets), la dynamique du système (ressources du système : CPU, RAM, Bande Passante Réseau et E/S), et des sources de données (fréquences de mise à jour très rapides, versions,…). Les collections adressées ici (citons vidéo, texte, documents, données géométriques et géographiques, géo-localisées, données semi-structurées, ontologies, ressources terminologiques) sont complexes de par leur taille, leur irrégularité, leur hétérogénéité, leur dynamicité, leur distribution/répartition, leur bruit, etc. Le traitement des données numériques s’adresse quant à lui à des données simulées ou observées.

La problématique centrale de l’action peut se décliner selon :

  • des infrastructures adéquates (middleware, grille, P2P, réseau,…),
  • des modèles et des méthodes pour la représentation et le traitement de ces masses de données (stockage, calcul, simulation, optimisation, indexation,…)
  • de nouveaux modes d’interactions et d’utilisation (homme-données) : web sémantique, web 2.0, multimodalité, réalité augmentée, virtuelle,….

Un des aspects spécifiques de cet axe est lié à l’évolution des problématiques d’indexation et de recherche d’information, conduisant à considérer les différentes dimensions de l’adaptation (à l’utilisateur, au contexte, aux dispositifs, aux moteurs d’indexation disponibles, etc.) en particulier dans le domaine de la mobilité, et en lien avec les axes « Systèmes Embarqués » et « Systèmes Ambiants ». Ces différentes dimensions intègrent de bout en bout les étapes du process, i.e. les services, les requêtes, les données et métadonnées associées, les résultats et leur présentation/visualisation. Les processus de recherche de l’information doivent bien évidemment prendre en compte flexibilité et personnalisation, tout en maintenant une Qualité de Service.

Notre effort porte plus particulièrement sur

  • d’une part, l’élaboration de modèles pour la représentation, l’accès, l’analyse, la fouille et la manipulation de collections d’informations complexes. Sur des données textuelles (documents disponibles sur le Web ou produits par des domaines spécifiques (astronomies, biologie …) nous étudions des outils de recherche capables de rechercher l’information pertinente. Dans ce contexte la prise en compte du sens de l’information revient àcouvrir la sémantique véhiculée par l’information aussi bien au niveau de la représentation que de l’accès.
  • d’autre part, le traitement de données (indexation, simulation, assimilation) et les outils logiciels d’accès aux ressources. Le travail sur les intergiciels de grille doit se poursuivre pour notamment offrir une grande robustesse d’accès au ressources logicielles (services) et ce indépendamment des risques de panne matériel. Les approches algorithmiques pour la simulation numérique doivent par contre être revisitées pour prendre en compte l’évolution des matériels (machines multicœurs et grille de calcul) : le paradigme, faire moins d’opérations pour aller plus vite n’est plus valide. Finalement, en analyse automatique de données audiovisuelles, notre effort portera sur les aspects indexation temps réels de flux, la fusion d’index audio et vidéo ainsi qu’au calcul de distances entre contenus audiovisuels.
Dept.EquipeNomPrénomTitreAnnée débutAnnée FinDAS/Action concernéMots-clés
CISOREVABIAUJulien20182021Calcul, Données, IAApprentissage / DL / CGP
SISAMOVACANCESLéoApprentissage profond semi-supervisé appliqué à la détection d'événements sonores20182021Calcul, Données, IADeep Learning / audio
SISAMOVAGELINLucileModélisation acoustique end-to-end pour la reconnaissance automatique de la parole d'enfants20182021Calcul, Données, IADeep Learning / audio
SISAMOVAROGERVincentFew sot techniques for pathological speech intelligibility mesure20182021Calcul, Données, IA / Santé, Autonomie, Bien-ÊtreDeep Learning / few shot / voix pathologiques
IAMELODIBOURGEADETomExplicabilité de modèles sémantiques en TAL20182021Calcul, Données, IATAL / DL / explicabilité
IAMELODICHIRILPatriciaDétection de message sexistes sur la toile20182021Calcul, Données, IATAL / DL / Apprentissage automatique / hate speech
SISCALVES DE OLIVEIRAViniciusApprentissage profond pour la compression embarquée d’images d’observation de la Terre20182021Calcul, Données, IA / Aéronautique, Espace, TransportsDeep Learning / télédétection / compression / débruitage / embarqué
SISCCASTERACamilleAlgorithmes d'optimisation structurés pour l'entraînement de réseaux de neurones profonds20182021Calcul, Données, IA
IAADRIA,APOBENNISAchrafNeural Networks for Survival Analysis and Predictive Maintenance20182021Calcul, Données, IA
GDSIGLEJEUNEClémentDonnées fonctionnelles multivariées: extraction de caractéristiques géométriques et apprentissage parcimonieux de la dynamique20182021Calcul, Données, IAInformation systems / anomaly detection / time series mining / machine learning
GDSIGCOUSTIEOihanaDetecting anomalies in modern IT systems through the inference of structure and the detection of novelties in system logs20182021Calcul, Données, IAInformation systems / anomaly detection / time series mining / deep learning
GDSIGNEPTUNENathalieApprentissage profond pour la détection des changements de couverture au sol20182022Calcul, Données, IAInformation systems / change detection / image time series mining / deep learning
GDSIG / REVARESMAIsmat AraInfluence de la distribution des classes et évaluation en apprentissage profond - Application à la détection du cancer sur des images histologiques20182021Calcul, Données, IAInformation systems / image segmentation and classification / cancer detection / Deep Learning
ASRSEPIADELANDEDavidGestion de l'élasticité dans le cloud : approches d'apprentissage par renforcement20192022Calcul, Données, IARL / cloud / élasticité
SISAMOVAQUINTASSebastiaoDeep learning approaches to assess head and neck cancer voice intelligibility20192022Calcul, Données, IA / Santé, Autonomie, Bien-ÊtreDeep Learning / voix pathologiques
IAMELODIKHALDIHadjerExtraction de relations économiques à partir de textes20192022Calcul, Données, IATAL / Knowledge Graphs / Apprentissage automatique
SIMINDSMAINguyen Anh MinhSegmentation sémantique d'image par approche ontologique. Application à la perception de l'environnement d'un véhicule autonome pour la détection d'obstacles par météo tout temps20192022Ville intelligentevéhicule autonome / apprentissage profond / ontologie
GDIRISBOUALILILilaDeep learning et IR (exploration des modèles pre-entrainés à la BERT)20192022Calcul, Données, IADeep IR / Language modeling / Exact matching
GDIRISDUSARTAlexisAgrégation d’informations sociales20192022Calcul, Données, IAAgrégation / Language modeling / résumé multi-documents
GDIRISBIZZOZZERONicolasPrédiction de requêtes20192022Calcul, Données, IAquery prédiction
GDIRISLUGOLuisModélisation des comportements de recherche basé sur les interactions des utilisateurs20192021Calcul, Données, IADeep clustering / Query Mapping / Query Segmentation
GDIRISSOURTYRaphaëlApprentissage profond pour l’accès aux textes et bases de connaissances20192022Calcul, Données, IAKB representation / Entity embeddings / Enriched LM
GDSIGRAHMANMd SiddiqurDetection et résolution de conflits aériens en apprentissage profond20192022Calcul, Données, IAInformation systems / conflit resolution / Deep Learning
CISOREVAMAILHEKaitlin20202023Calcul, Données, IAApprentissage / RL / ARNN
SISAMOVALABBEEtienneApprentissage profond semi-supervisé pour l’analyse de séquences sonores20202023Calcul, Données, IADeep Learning / audio
IAMELODIDEVATINENicolasPrédiction de biais textuel20202023Calcul, Données, IATAL / DL / explicabilité / biais
CISOAPOORTEGAPilarMinimally supervised learning pour l'histopathologie20202023Calcul, Données, IA / Santé, Autonomie, Bien-ÊtreApprentissage
ASRRMESS / APOMILLET-MESLETFabienDeep Learning for Computer Network20202023Ville intelligenteDeep Learning
SIMINDSNWIGBOKenuleSuper-resolution in CBCT dental imaging20202023Santé, Autonomie, Bien-ÊtreDeep Learning / CBCT / super-resolution / plug and play
GDIRISARENSMaximeRecherche d’information conversationnelle : Vers de nouvelles méthodes d’accès à l’information20202023Calcul, Données, IArecherche conversationnelle / deep Active Learning
GDSIGBOULISSETValentinMéthodes d’intelligence artificielle pour la mesure des particules fines en temps réel par cameras spectrales20202022Calcul, Données, IAspectral camera / PM (particle mater) polution modelling / Deep Learning / machine learning
SISCCOEURDOUXFlorentinGenerative models for Monte Carlo sampling20212023Calcul, Données, IA
SIMINDSYANETH SANCHEZ QUIROGAKarenDeep Learning Algorithms Design
for Medical imaging in Computer-aided Diagnosis Tasks
20212024Santé, Autonomie, Bien-ÊtreDeep Learning / medical imaging / heterogeneous data / small training dataset
CISOAPOMERCIERValentinSimulation de crues de rivière par ML20212024Calcul, Données, IAapprentissage / simulation / equations de St Venant
CISOAPOBEUZEVILLETheoAnalyse de robustesse de réseaux20212024Calcul, Données, IAsensibilité / Analyse inverse / attaques adversariales
CISOAPOPEYRONMathisAssimilation de données par auto encodeurs20212024Calcul, Données, IAvariationnel bayes / asssimilation ensembliste / reduction de modèle
CISOAPOJERADSadokMéthodes du second ordre pour l'apprentissage20212024Calcul, Données, IAoptimisation stochastique / convergence globale / analyse de complexité
GDIRISNAZISHHinaDeep learning and IR : exploitation de représentations denses issues de transformers + explicability (en option)20212024Calcul, Données, IADense representation / Pre trained LM / adhoc search / aggregation of representations

DeepLearning@IRIT

1er Juillet 2021 Auditorium J. Herbrand

9h00 -09h10Accueil, Thomas Pellegrini, Franck Ravat
09h10 – 10h00Joao MARQUES-SILVA, Formal Reasoning Methods in Explainable AI
The expected applications of machine learning (ML) in safety critical applications hinge on systems that are robust in their operation and that can be trusted. This talk overviews recent efforts on applying automated reasoning tools in explaining non-interpretable (black-box) ML models. Concretely, the talk details the computation of rigorous explanations of black-box models, and how these serve for assessing the quality of widely used heuristic explanation approaches. The talk also overviews duality properties between different kinds of rigorous explanation. Finally, the talk briefly overviews ongoing work on mapping tractable explainability.
Présentation pdf en téléchargement
10h00 -10h15PAUSE
Département Signaux et Images (SI)
10h15 -11h15SAMOVA – Thomas PELLEGRINI – Deep learning pour l’analyse de documents sonores avec peu de données
Présentation pdf en téléchargement
STORM – Nicolas MELLADO – Activités en deep learning de l’équipe STORM
Présentation pdf en téléchargement
MINDS – Adrian BASARAB – Domain adaptation based on subspace projection and GANs for Pneumonia Diagnosis in a small Chest X-ray Dataset
Présentation pdf en téléchargement
SC – Cédric FÉVOTTE – Activités en deep learning de l’équipe SC
Présentation pdf en téléchargement
11h15 – 11H20PAUSE
Département Intelligence Artificielle (IA)
11h20 – 11h50MELODI – Philippe MULLER – Deep learning pour le TAL et l’ingénierie des
connaissances
Présentation pdf en téléchargement
ADRIA – Mathieu SERRURIER – Robustesse, transport optimal
11h50 – 11H55PAUSE
Département Architecture, Systèmes, Réseaux (ASR)
11h55 – 12h20RMESS – Gentian JAKLLARI – Machine learning for cyber-physical systems
Présentation pdf en téléchargement
SEPIA – Patricia STOLF – Machine learning pour l’efficacité énergétique
Présentation pdf en téléchargement
12h20 –14h00DÉJEUNER
Département Gestion de données (GD)
14h00 – 14h30SIG – Josiane MOTHE – Apprentissage automatique et accès à l’information
IRIS – Jose G MORENO – Activités en deep learning de l’équipe IRIS
Présentation pdf en téléchargement
14h30 – 14h35PAUSE
Département Calcul Intensif, Simulation, Optimisation (CISO)
14h35 – 15h05APO – Serge GRATTON – ML sous contrainte physique et embarquabilité
REVA – Hervé LUGA – Apprentissage bio-inspiré
Présentation pdf en téléchargement
15h05 – 15h20PAUSE
15h20 – 15h35ANITI – Nicolas ASHER
15h35 – 16h30Table Ronde Bilan et perspective

15 décembre 2021 – Présentation de la plateforme de calcul nationale Jean Zay

Camille Parisel, de l’équipe Support Utilisateurs IA de l’IDRIS, est venue à l’IRIT présenter la plateforme de calcul nationale Jean Zay, en particulier la partie IA de celle-ci.

Support PDF de la présentation

24 janvier 2020 – Demi-journée “Quelles plateformes de calcul pour quels usages ?”

Avant 2020

2019 : Semestre thématique CIMI sur l’Optimisation ; plusieurs réponses à l’appel à projets ANR Flash sur les Données (2 proviennent des groupes DataNoos) ; organisation du séminaire ODIM (Ontologies, données et informatique médicale) avec le DAS Santé (2 keynotes : M. Musen de Stanford et J.F. Ethier de l’Université de Sherbrooke et 6 conférences de l’IRIT)

2018 : organisation d’un séminaire “Deep Learning à l’IRIT” (présentations de 9 groupes de l’IRIT et 10 posters de doctorat présentant des recherches utilisant ou portant sur l’apprentissage machine) ; nous avons accueilli une délégation suédoise du programme AI WASP (Wallenberg AI, Autonomous Systems and Software Program) (4 présentations, 30 posters de doctorat, 2 présentations de l’IRIT). En mai 2018 a débuté l’alliance scientifique DataNoos financée par le RTRA STAE (19 laboratoires et centres de données de Toulouse) et dirigée par l’IRIT pour structurer la communauté académique de Toulouse et promouvoir la science ouverte en accord avec les recommandations du RDA

2017 : organisation d’un séminaire “science des données à l’IRIT” sur “la qualité des données, les données et la prise de décision” (9 intervenants) ; intervention lors d’un séminaire ESOF sur “Big Data and health” ; enquête pour cartographier les personnes, groupes, thèses et projets de recherche de l’IRIT liés aux big data et à l’IA ; contribution au projet de cartographie lancé par le RTRA STAE en relation avec l’initiative “Data economy”

2016 : participation aux Innovation IT Days ; organisation d’un séminaire scientifique CIMI “science des données à l’IRIT” (3 conférences IRIT, 1 keynote par Patrick Valduriez et 8 ateliers sur des types de données spécifiques) ; organisation de l’atelier ENADOC-MADICS à l’IRIT ; publication d’un numéro spécial de Noir Sur Blanc (revue IRIT) sur la science des données

2015 : présentation de “masses de données et calcul à l’IRIT” lors des Innovation IT Days (salon industriel) ; 2 jours d’atelier CIMI sur les Big Data (organisation conjointe avec le Master CMI-SID, soutenu par GDR MADICS et MascotNUM) : 3 keynotes (projets MADICS) et 10 conférences académiques ou d’entreprises

Nov 2014 : Séminaire scientifique CIMI “Big data, questions de recherche en Midi-Pyrénées” (organisation conjointe IRIT-IMT). 10 intervenants de 10 laboratoires de Toulouse (informatique, mathématiques, biologie, aéronautique et espace) et un conférencier principal : Mokrane BOUZEGHOUB (MASTODONS et GDR MADICS)

Formation Introduction au Deep Learning en ligne, par CNRS – Resinfo / SARI – DevLOG, 2021