Équipe SAMOVA

Responsable : Julien PINQUIER


 

Les travaux de l’équipe SAMoVA se placent dans le contexte de l’indexation et de la recherche de documents audio et vidéo. Notre recherche s’appuie sur le traitement du signal, la modélisation, ainsi que sur la structuration du contenu audiovisuel.

Compétences

Segmentation, indexation et structuration audio et vidéo
Parole, musique et sons environnementaux
Interaction conversationnelle multimodale
Traitement de déglutition, parole atypique/pathologique et de perte auditive
Apprentissage profond pour l'analyse audio et vidéo

personnel de l’équipe

Membres permanents
Membres non – permanents
Membres extérieur

publications de l’équipe

Articles dans des revues internationales
Articles dans des revues nationales
Rédaction de numéros spéciaux de revues
Conférences et workshops internationaux avec actes édités et comité de lecture
  • Sebastião Quintas, Julie Mauclair, Julien Pinquier

    Modélisation individuelle de juges pour la prédiction automatique de l’intelligibilité de la parole

    9èmes Journées de Phonétique Clinique (JPC 2023), Université Toulouse III Paul Sabatier; Université UT2J Toulouse Jean-Jaurès; Hôpitaux de Toulouse; Laboratoire Informatique d’Avignon, Jun 2023, Toulouse, France. à paraître

    Accès: https://hal.science/hal-04093783

  • Sebastião Quintas, Alberto Abad, Julie Mauclair, Virginie Woisard, Julien Pinquier

    Towards Reducing Patient Effort for the Automatic Prediction of Speech Intelligibility in Head and Neck Cancers

    48th International Conference on Acoustics, Speech, and Signal Processing (ICASSP 2023), IEEE Signal Processing Society (SPS), Jun 2023, Rhodes, Greece. pp.1-5, ⟨10.1109/icassp49357.2023.10094921⟩

    Accès: https://hal.science/hal-04093771

  • Ismail Khalfaoui-Hassani, Thomas Pellegrini, Timothée Masquelier

    Dilated convolution with learnable spacings

    11th International Conference on Learning Representations (ICLR 2023), May 2023, Kigali, Rwanda. à paraître, ⟨10.48550/arXiv.2112.03740⟩

    Accès: https://hal.science/hal-04057309

  • Juan Manuel Coria, Hervé Bredin, Sahar Ghannay, Sophie Rosset

    Continual self-supervised domain adaptation for end-to-end speaker diarization

    IEEE Spoken Language Technology Workshop (SLT 2022), IEEE Speech and Language Processing Technical Committee, Jan 2023, Doha, Qatar. à paraître

    Accès: https://hal.science/hal-03824546

  • Sylvain Detey, Lionel Fontan, Isabelle Ferrané

    From Verbo-Tonal Method teachers’ training to Computer-Assisted Pronunciation Training tools: Insight from L3 pronunciation studies and automatic speech processing technology among Japanese learners of French

    11th Speech Research (SR 2022), Faculty of Humanities and Social Sciences, Zagreb, Croatia, Dec 2022, Zagreb, Croatia

    Accès: https://hal.science/hal-03924895

  • Verdiana De Fino, Lionel Fontan, Sylvain Detey, Isabelle Ferrané, Julien Pinquier

    Corpus de parole non-native et prédiction automatique du niveau de performance en expression orale : application à CLIJAF

    Journées Interphonologie du Français Contemporain (IPFC 2022), Dec 2022, Paris, France

    Accès: https://hal.science/hal-03946408

  • Lionel Fontan, Shinyoung Kim, Verdiana De Fino, Sylvain Detey

    Predicting speech fluency in children using automatic acoustic features

    Asia Pacific Signal and Information Processing Association Annual Summit and Conference (APSIPA ASC 2022), Asia-Pacific Signal and Information Processing Association (APSIPA), Nov 2022, Chiang Mai, Thailand. pp.1086-1091, ⟨10.23919/APSIPAASC55919.2022.9979884⟩

    Accès: https://hal.science/hal-03937320

  • Thomas Pellegrini

    Language-based audio retrieval with textual embeddings of tag names

    Workshop on Detection and Classification of Acoustic Scenes and Events (Workshop DCASE 2022), Nov 2022, Nancy, France. à paraître

    Accès: https://ut3-toulouseinp.hal.science/hal-03812737

  • Etienne Labbé, Thomas Pellegrini, Julien Pinquier

    Is my automatic audio captioning system so bad? spider-max: a metric to consider several caption candidates

    Workshop on Detection and Classification of Acoustic Scenes and Events (DCASE 2022), Nov 2022, Nancy, France

    Accès: https://hal.science/hal-03810396v2

  • Sebastião Quintas, Julie Mauclair, Virginie Woisard, Julien Pinquier

    Automatic Assessment of Speech Intelligibility using Consonant Similarity for Head and Neck Cancer

    23rd INTERSPEECH Conference: Human and Humanizing Speech Technology ( INTERSPEECH 2022), Sep 2022, Incheon, South Korea. à paraître

    Accès: https://hal.science/hal-03716420

  • Conférences sans actes publiés
    Livres (monographies)
  • Etienne Sicard, Anne Menin-Sicard, Marie Daumet, Stéphanie Perriere, Océane Barbera

    Evaluation de la voix avant/après suivi orthophonique -à propos de la méthodologie d’évaluation et de la fiabilité des mesures chiffrées

    Ortho Editions. Efficacité des thérapies, Ortho Editions, pp.233-264, 2017, 978-2-36235-100-6

    Accès: https://hal.science/hal-02424850

  • Alexandre Boyer, Etienne Sicard

    Basis of Electromagnetic Compatibility of Integrated Circuits – A modeling approach using IC-EMC

    Presses Universitaires du Midi – Collection Pour l’ingénieur. Presses universitaires du Midi (PUM), 390p., 2017, 978-2-8107-0522-1

    Accès: https://hal.science/hal-01951651

  • Contributions à des ouvrages de synthèse
    Thèses et habilitations
  • Sebastião Quintas

    Deep learning approaches to assess speech intelligibility of head and neck cancer

    Artificial Intelligence [cs.AI]. Université Paul Sabatier – Toulouse III, 2022. English. ⟨NNT : 2022TOU30272⟩

    Accès: https://theses.hal.science/tel-04094765

  • Estelle Randria

    Compréhensibilité de contenus audiovisuels : quelles approches pour une mesure objective ?

    Informatique [cs]. Université Paul Sabatier (Toulouse 3), 2022. Français. ⟨NNT : 2022TOU30258⟩

    Accès: https://theses.hal.science/tel-04064038

  • Vincent Roger

    Modélisation de l’indice de sévérité du trouble de la parole à l’aide de méthodes d’apprentissage profond : d’une modélisation à partir de quelques exemples à un apprentissage auto-supervisé via une mesure entropique

    Apprentissage [cs.LG]. Université Paul Sabatier – Toulouse III, 2022. Français. ⟨NNT : 2022TOU30180⟩

    Accès: https://theses.hal.science/tel-03935738

  • Lucile Gelin

    Reconnaissance automatique de la parole d’enfants apprenant·e·s lecteur·ice·s en salle de classe : modélisation acoustique de phonèmes

    Intelligence artificielle [cs.AI]. Université Paul Sabatier – Toulouse III, 2022. Français. ⟨NNT : 2022TOU30031⟩

    Accès: https://theses.hal.science/tel-03715653

  • Léo Cances

    Apprentissage profond faiblement supervisé et semi-supervisé pour la détection d’évènements sonores

    Sciences de l’information et de la communication. Université Paul Sabatier – Toulouse III, 2021. Français. ⟨NNT : 2021TOU30262⟩

    Accès: https://theses.hal.science/tel-03683219

  • Mathieu Balaguer

    Mesure de l’altération de la communication par analyses automatiques de la parole spontanée après traitement d’un cancer oral ou oropharyngé

    Sciences de l’information et de la communication. Université Paul Sabatier – Toulouse III, 2021. Français. ⟨NNT : 2021TOU30109⟩

    Accès: https://theses.hal.science/tel-03557511

  • Nicolas Dauban

    Jusqu’où les goûts musicaux sont-ils prédictibles par l’intelligence artificielle ?

    Intelligence artificielle [cs.AI]. Université Paul Sabatier – Toulouse III, 2021. Français. ⟨NNT : 2021TOU30082⟩

    Accès: https://theses.hal.science/tel-03469458

  • Abdelwahab Heba

    Reconnaissance automatique de la parole à large vocabulaire : des approches hybrides aux approches End-to-End

    Intelligence artificielle [cs.AI]. Université Paul Sabatier – Toulouse III, 2021. Français. ⟨NNT : 2021TOU30116⟩

    Accès: https://theses.hal.science/tel-03616588

  • Abdelwahab Heba

    Reconnaissance automatique de la parole à large vocabulaire : des approches hybrides aux approches End-to-End

    Son [cs.SD]. Université toulouse 3 Paul Sabatier, 2021. Français. ⟨NNT : ⟩

    Accès: https://hal.science/tel-03269807

  • Wael Farid Youssef

    Instantiation of a textual description schema of video surveillance scenes

    Image Processing [eess.IV]. Université Paul Sabatier – Toulouse III, 2019. English. ⟨NNT : 2019TOU30249⟩

    Accès: https://theses.hal.science/tel-02965857

  • Rapports
  • Etienne Sicard, Anne Menin-Sicard

    La diadococinésie et son application en orthophonique clinique

    [Rapport de recherche] INSA 2020, INSA : Institut National des Sciences Appliquées de Toulouse. 2020

    Accès: https://hal.science/hal-02512856

  • Etienne Sicard, Anne Menin-Sicard

    Analyse de la qualité des phrases pour un bilan objectif de la parole

    [Rapport de recherche] INSA Toulouse. 2019

    Accès: https://hal.science/hal-02389764v2

  • Thomas Pellegrini, Céline Manenti, Julien Pinquier

    The IRIT-UPS system @ ZeroSpeech 2017

    [Research Report] IRIT. 2017

    Accès: https://hal.science/hal-03131886

  • Maëlys Salingre, Jérôme Farinas, Stéphane Rabant

    Automatic identification of French regional accent

    [Rapport de recherche] IRIT. 2017

    Accès: https://hal.science/hal-03120304

  • Rapports

    contrats de l’équipe

    AcronymeTitreResp. scDébut – fin
    LUDAU Découverte peu et non-supervisée d’unités audio à l’aide d’apprentissage profond Thomas PELLEGRINI
    2018 – 2023
    ALAIA Apprentissage des Langues Assisté par Intelligence Artificielle Isabelle FERRANÉ
    2019 – 2023
    PhLEs-NID Dispositif non invasif evaluant l’éfficacité pharyngo-laryngée Jérôme FARINAS
    2022 – 2026
    RUGBI
    [Contrat terminé]
    Recherche d’unités linguistiques pertinentes pour améliorer la mesure de l’intelligibilité de la parole altérée par des troubles de production pathologique Jérôme FARINAS
    2018 – 2022
    RIDDLE
    [Contrat terminé]
    Robots perceptuels et interactifs dédiés aux environnement quotidiens Isabelle FERRANÉ
    2012 – 2015
    ARTIS
    [Contrat terminé]
    autre Inversion articulatoire de la parole audiovisuelle pour la parole augmentée Régine ANDRÉ-OBRECHT
    2009 – 2013
    AcronymeTitreResp. scDébut – fin
    AudioToolBox
    [Contrat terminé]
    Prestation TTT : AudioToolBox Julien PINQUIER
    2017 – 2018
    ECREME
    [Contrat terminé]
    autre Allocation Doctorale : Expertises Musicale et Cognitive pour Recommandation Musicale personnaliséE Julien PINQUIER
    2017 – 2020
    TAPAS
    [Contrat terminé]
    auropa Training Network on Automatic Processing of PAthological Speech Julie MAUCLAIR
    2017 – 2022
    VICTORIA
    [Contrat terminé]
    auropa Video analysis for Investigation of Criminal and TerrORIst Activities Philippe JOLY
    2017 – 2020
    VOICE4PD – MSA
    [Contrat terminé]
    Diagnostic différentiel entre la maladie de Parkinson et l’atrophie multisystématisée par analyse numérique de la parole Julie MAUCLAIR
    2016 – 2023
    CIESS
    [Contrat terminé]
    Contribution, indexation, et enrichissement d’un corpus de sons de l’environnement Régine ANDRÉ-OBRECHT
    2013 – 2016
    DIADEMS
    [Contrat terminé]
    Description, Indexation, Accés aux Documents Ethnomusicologiques et Sonores Régine ANDRÉ-OBRECHT
    2013 – 2016
    AcronymeTitreResp. scDébut – fin
    AUDIOCAP
    [Contrat terminé]
    Audition et handicap dans le bruit – vers la restauration de l’intelligibilité de la parole Julien PINQUIER
    2019 – 2022
    EVOLEX2
    [Contrat terminé]
    Apport de la reconnaissance vocale pour le diagnostic de dysfonctionnements cognitifs légers Julien PINQUIER
    2019 – 2021
    INGPRO
    [Contrat terminé]
    Recherche et Sociétés : Incidence des gestes sur la prononciation Isabelle FERRANÉ
    2019 – 2021
    SAMI
    [Contrat terminé]
    autre Allocation Doctorale : Système automatisé de mesure de l’intelligibilité Julien PINQUIER
    2018 – 2021
    Mesure de compréhenion de la parole
    [Contrat terminé]
    Mesure de compréhension de la parole : équipement électronique intelligent de mesure de la compréhension de la parole basée sur une approche cognitive sur l’exemple de la compréhension humaine Jérôme FARINAS
    2012 – 2015
    Mardi 16 Mai 2023, 10h00
    Adaptation d’approches connexionnistes non supervisées pour l’analyse de contenus d’images et de sons
    Benjamin CHAMAND – Equipe SAMOVA, IRIT UT3 Paul Sabatier, IRIT, Auditorium J. Herbrand
    #these
    Mardi 21 Mars 2023, 9h00
    Caractérisation automatique du rythme de la parole : application aux cancers des voies aéro-digestives supérieures et à la maladie de Parkinson
    Robin VAYSSE – Equipe SAMOVA, IRIT UT3 Paul Sabatier, IRIT, Auditorium J. Herbrand
    #these
    Mercredi 30 Novembre 2022, 14h00
    Deep Learning Approaches to Assess Speech Intelligibility of Head and Neck Cancers
    Sebastiao QUINTAS – Equipe SAMOVA, IRIT UT3 Paul Sabatier, IRIT, Auditorium J. Herbrand
    #these
    Lundi 17 Octobre 2022, 14h00
    Compréhensibilité de contenus audiovisuels : quelles approches pour une mesure objective ?
    Estelle RANDRIA – Equipe SAMOVA, IRIT UT3 Paul Sabatier, IRIT, Auditorium J. Herbrand
    #these
    Jeudi 29 Septembre 2022, 14h00
    Modélisation de l’indice de sévérité du trouble de la parole à l’aide de méthodes d’apprentissage profond d’une modélisation à partir de quelques exemples à un apprentissage auto-supervisé via une mesure entropique
    Vincent ROGER – Equipe SAMOVA, IRIT UT3 Paul Sabatier, IRIT, Auditorium J. Herbrand
    #these
    Mercredi 2 Février 2022, 14h00
    Reconnaissance automatique de la parole d’enfants apprenant·e·s lecteur·ice·s en salle de classe : modélisation acoustique de phonèmes
    Lucile GELIN – Equipe SAMOVA, IRIT UT3 Paul Sabatier, IMT, Bât 1R3, Amphi. Schwartz
    #these
    Mardi 14 Décembre 2021, 14h00
    Apprentissage profond faiblement et semi-supervisé pour la détection d’évènements sonores
    Leo CANCES – Equipe SAMOVA, IRIT UT3 Paul Sabatier, IMT, Bât 1R3, Amphi. Schwartz
    #these
    Mardi 30 Novembre 2021, 14h00
    Les mesures d’intelligibilité : État de l’art, considérations pratiques pour l’applicabilité clinique et explorations acoustiques
    Timothy POMMÉE – Equipe SAMOVA, IRIT UT3 Paul Sabatier, IRIT, Auditorium J. Herbrand et en visioconférence
    #these
    Mardi 12 Octobre 2021, 14h00
    Mesure de l’altération de la communication par analyses automatiques de la parole spontanée après traitement d’un cancer oral ou oropharyngé
    Mathieu BALAGUER – Equipe SAMOVA, IRIT UT3 Paul Sabatier, IRIT, Auditorium J. Herbrand
    #these
    Vendredi 21 Mai 2021, 13h30
    Prédiction a priori de la qualité de la transcription automatique de la parole par l’analyse de l’environnement sonore
    Sébastien FERREIRA – Equipe SAMOVA, IRIT UT3 Paul Sabatier, En visioconférence
    #these
    Jeudi 9 Janvier 2020 – Vendredi 10 Janvier 2020
    12th Speech In Noise Workshop
    Hôtel-Dieu Saint-Jacques, Toulouse
    #congres En savoir plus
    Lundi 4 Juillet 2016 – Vendredi 8 Juillet 2016
    Journées d’Etudes sur la Parole
    INALCO, 75013 Paris
    #congres En savoir plus
    Jeudi 21 Février 2019, 11h00 – 12h00
    Weakly-supervised approaches for sound event detection
    Thomas PELLEGRINI – Equipe SAMOVA – IRIT (France) INP-ENSEEIHT, Salle des thèses
    #seminaire
    Mercredi 31 Août 2016, 10h00 – 12h00
    Advanced human robot social interaction: goals, challenges and approaches
    Sarah COSENTINO – Waseda University (Japon) UT3 Paul Sabatier, IRIT, Salle des Thèses
    #seminaire
    Lundi 20 Avril 2015, 13h30
    Analyse de signaux multi-composantes: avancées théoriques et applications musicales
    Dominique FOURER UT3 Paul Sabatier, IRIT, Salle des Thèses
    #seminaire
    Lundi 19 Mai 2014, 15h00
    Segmentations sonore et audiovisuelle ?
    Julien PINQUIER – Equipe SAMOVA – IRIT UT3 Paul Sabatier, IRIT, Auditorium J. Herbrand
    #hdr
    Jeudi 27 Mai 2021
    Séminaire AFCP — Phonétique Clinique (en remplacement de JPC2021)
    UT3 Paul Sabatier, En visioconférence
    #journee
    Mercredi 4 Septembre 2019 – Vendredi 6 Septembre 2019
    Training Network on Automatic Processing of PAthological Speech (TAPAS) TE3: Data Collection, Management and Ethical Practices
    UT3 Paul Sabatier, IRIT, Auditorium J. Herbrand
    #journee
    Jeudi 4 Octobre 2018
    2018 AIRBUS Air Traffic Control Challenge Workshop
    UT3 Paul Sabatier, IRIT, Auditorium J. Herbrand
    #journee
    Jeudi 8 Mars 2018
    Traitement automatique de la parole et ressources pour la didactique de l’oral en L2 : variation, corpus, techniques
    UT3 Paul Sabatier, IRIT, Auditorium J. Herbrand
    #journee
    Mercredi 4 Octobre 2017
    Workshop Language Didactics, Gestures & CALL
    UT3 Paul Sabatier, IRIT, Auditorium J. Herbrand
    #journee