Équipe SAMOVA

Responsable : Julien PINQUIER


 

Les travaux de l’équipe SAMoVA se placent dans le contexte de l’indexation et de la recherche de documents audio et vidéo. Notre recherche s’appuie sur le traitement du signal, la modélisation, ainsi que sur la structuration du contenu audiovisuel.

Compétences

Segmentation, indexation et structuration audio et vidéo
Parole, musique et sons environnementaux
Interaction conversationnelle multimodale
Traitement de la parole pathologique et de la perte auditive
Apprentissage profond pour l'analyse audio et vidéo

personnel de l’équipe

Membres permanents
Membres non – permanents

publications de l’équipe

Articles dans des revues internationales
  • Virginie Woisard, Corine Astésano, Mathieu Balaguer, Jérome Farinas, Corinne Fredouille, Pascal Gaillard, Alain Ghio, Laurence Giusti, Imed Laaridh, Muriel Lalain, Benoit Lepage, Julie Mauclair, Olivier Nocaudie, Julien Pinquier, Gilles Pouchoulin, Michèle Puech, Danièle Robert, Vincent Roger

    C2SI corpus: a database of speech disorder productions to assess intelligibility and quality of life in head and neck cancers

    Language Resources and Evaluation, Springer Verlag, 2021, 55 (1), pp.173-190. ⟨10.1007/s10579-020-09496-3⟩

    Accès: https://hal.archives-ouvertes.fr/hal-02921918

  • Geoffrey Roman Jimenez, Patrice Guyot, Thierry Malon, Sylvie Chambon, Vincent Charvillat, Alain Crouzil, André Péninou, Julien Pinquier, Florence Sèdes, Christine Senac

    Improving vehicle re‐identification using CNN latent spaces: Metrics comparison and track‐to‐track extension

    IET Computer Vision, IET, 2021, 15 (2), pp.85-98. ⟨10.1049/cvi2.12010⟩

    Accès: https://hal.archives-ouvertes.fr/hal-03126045

  • Timothy Pommée, Mathieu Balaguer, Julie Mauclair, Julien Pinquier, Virginie Woisard

    Assessment of adult speech disorders: current situation and needs in French-speaking clinical practice

    Logopedics Phoniatrics Vocology, Taylor & Francis, 2021, pp.1-15. ⟨10.1080/14015439.2020.1870245⟩

    Accès: https://hal.archives-ouvertes.fr/hal-03120115

  • Annalisa Paroni, Nathalie Henrich Bernardoni, Christophe Savariaux, Hélène Loevenbruck, Pascale Calabrese, Thomas Pellegrini, Sandrine Mouysset, Silvain Gerber

    Vocal drum sounds in human beatboxing: An acoustic and articulatory exploration using electromagnetic articulography

    Journal of the Acoustical Society of America, Acoustical Society of America, 2021, 149 (1), pp.191-206. ⟨10.1121/10.0002921⟩

    Accès: https://hal.univ-grenoble-alpes.fr/hal-03107358

  • Mathieu Balaguer, Timothy Pommée, Jérome Farinas, Julien Pinquier, Virginie Woisard, Renée Speyer

    Effects of oral and oropharyngeal cancer on speech intelligibility using acoustic analysis: Systematic review

    Head and Neck, Wiley, 2020, 42 (1), pp.111-130. ⟨10.1002/hed.25949⟩

    Accès: https://hal.archives-ouvertes.fr/hal-02492761

  • Mathieu Balaguer, Jérome Farinas, Pascale Fichaux-Bourin, Michèle Puech, Julien Pinquier, Virginie Woisard

    Validation of the French Versions of the Speech Handicap Index and the Phonation Handicap Index in Patients Treated for Cancer of the Oral Cavity or Oropharynx

    Folia Phoniatrica et Logopaedica, Karger, In press, ⟨10.1159/000503448⟩

    Accès: https://hal.archives-ouvertes.fr/hal-02505354

  • Mathieu Balaguer, Maëlle Champenois, Jérôme Farinas, Julien Pinquier, Virginie Woisard

    The (head and neck) carcinologic handicap index: validation of a modular type questionnaire and its ability to prioritise patients’ needs

    European Archives of Oto-Rhino-Laryngology, Springer Verlag, In press, ⟨10.1007/s00405-020-06201-6⟩

    Accès: https://hal.archives-ouvertes.fr/hal-02899287

  • Mathieu Balaguer, Aline Boisguerin, Anaïs Galtier, Nadège Gaillard, Michèle Puech, Virginie Woisard

    Factors influencing intelligibility and severity of chronic speech disorders of patients treated for oral or oropharyngeal cancer

    European Archives of Oto-Rhino-Laryngology, Springer Verlag, 2019, 276 (6), pp.1767-1774. ⟨10.1007/s00405-019-05397-6⟩

    Accès: https://hal.archives-ouvertes.fr/hal-02505369

  • Zein Al Abidin Ibrahim, Isabelle Ferrané, Philippe Joly

    Temporal relation algebra for audiovisual content analysis

    Multimedia Tools and Applications, Springer Verlag, 2018, 78 (309), pp.1-42. ⟨10.1007/s11042-018-6771-1⟩

    Accès: https://hal.archives-ouvertes.fr/hal-02089343

  • Nicolas Dauban, Paul Albenge, Ludovic Florin, Julien Pinquier, Christine Sénac, Pascal Gaillard, Patrice Guyot

    Catégorisation libre d’extraits musicaux et analyse automatique

    Revue des Sciences et Technologies de l’Information – Série RIA : Revue d’Intelligence Artificielle, Lavoisier, 2018, ⟨10.3166/RIA.28.1-16⟩

    Accès: https://hal.archives-ouvertes.fr/hal-01910888

  • Articles dans des revues nationales
  • Mathieu Balaguer, Timothy Pommée, Jérôme Farinas, Julien Pinquier, Virginie Woisard

    Paramètres perceptifs expliquant la sévérité du trouble de parole mesurée automatiquement en cancérologie ORL

    Rééducation orthophonique, Ortho édition, 2021, Chapitre : « De l’exploration à la prise en soins de la voix chez l’adulte : données actuelles.. sur la voie des voix », 286, pp.1-13

    Accès: https://hal-univ-tlse3.archives-ouvertes.fr/hal-03277422

  • Articles dans des revues nationales
    Rédaction de numéros spéciaux de revues
    Conférences et workshops internationaux avec actes édités et comité de lecture
  • Quentin Portes, Julien Pinquier, Frédéric Lesrale, Jose Mendes-Carlalho

    Analyse multimodale d’interaction humaine dans le cockpit d’un véhicule

    18èmes journées francophones des jeunes chercheurs en vision par ordinateur (ORASIS 2021), Centre National de la Recherche Scientifique [CNRS]; Equipe REVA, IRIT : Institut de Recherche en Informatique de Toulouse, Sep 2021, Saint Ferréol, France

    Accès: https://hal.archives-ouvertes.fr/hal-03339623

  • Lucile Gelin, Thomas Pellegrini, Julien Pinquier, Morgane Daniel

    Simulating reading mistakes for child speech Transformer-based phone recognition

    Annual Conference of the International Speech Communication Association (INTERSPEECH), Aug 2021, Brno, Czech Republic

    Accès: https://hal.archives-ouvertes.fr/hal-03257870

  • Thomas Pellegrini

    Deep-learning-based central African primate species classification with MixUp and SpecAugment

    Interspeech 2021, Aug 2021, Brno, Czech Republic

    Accès: https://hal-univ-tlse3.archives-ouvertes.fr/hal-03298384

  • Hervé Bredin, Antoine Laurent

    End-to-end speaker segmentation for overlap-aware resegmentation

    Interspeech 2021, Aug 2021, Brno, Czech Republic

    Accès: https://hal-univ-lemans.archives-ouvertes.fr/hal-03257524

  • Robin Vaysse, Jérôme Farinas, Corine Astésano, Régine André-Obrecht

    Automatic extraction of speech rhythm descriptors for speech intelligibility assessment in the context of Head and Neck Cancers

    INTERSPEECH 2021, ISCA : International Speech and Communication Association, Aug 2021, Brno, Czech Republic

    Accès: https://hal-univ-tlse3.archives-ouvertes.fr/hal-03269227

  • Lionel Pibre, Sélim Mechrouh, Thomas Pellegrini, Julien Pinquier, Isabelle Ferrané

    Automatic macro segmentation into interaction sequence: a silence-based approach for meeting structuring

    Content-Based Multimedia Indexing (CBMI 2021), University of Lille – France, Jun 2021, Lille, France

    Accès: https://hal.archives-ouvertes.fr/hal-03273029

  • Thomas Pellegrini, Timothée Masquelier

    Fast threshold optimization for multi-label audio tagging using Surrogate gradient learning

    IEEE International Conference on Acoustics, Speech and Signal Processing, Jun 2021, Toronto, Canada

    Accès: https://hal.archives-ouvertes.fr/hal-03153644

  • Léo Cances, Thomas Pellegrini

    Comparison of Deep Co-Training and Mean-Teacher approaches for semi-supervised audio tagging

    IEEE 46th International Conference on Acoustics, Speech and Signal Processing (ICASSP 2021), IEEE Signal Processing Society’s, Jun 2021, Toronto, Canada

    Accès: https://hal.archives-ouvertes.fr/hal-03170277

  • Thomas Pellegrini, Romain Zimmer, Timothée Masquelier

    Low-activity supervised convolutional spiking neural networks applied to speech commands recognition

    IEEE Spoken Language Technology Workshop 2021, Jan 2021, Shenzhen (virtual), France

    Accès: https://hal.archives-ouvertes.fr/hal-03007620

  • Jorge Francisco Madrigal Diaz, Frédéric Lerasle, Lionel Pibre, Isabelle Ferrané

    Audio-Video detection of the active speaker in meetings

    IEEE 25th International Conference on Pattern Recognition (ICPR 2020), IAPR : International Association of Pattern Recognition, Jan 2021, Milan (virtual), Italy. ⟨10.1109/ICPR48806.2021.9412681⟩

    Accès: https://hal.archives-ouvertes.fr/hal-03125600

  • Conférences et workshops nationaux avec actes édités et comité de lecture
  • Sébastien Ferreira, Jérome Farinas, Julien Pinquier, Stéphane Rabant

    Analyse du bruit pour la prédiction de la qualité de la transcription automatique de la parole

    27e Colloque du Groupe de Recherche sur le Traitement du Signal et des Images (GRETSI 2019), Aug 2019, Lille, France. pp.1-4

    Accès: https://hal.archives-ouvertes.fr/hal-02950726

  • Virginie Woisard, Jérome Farinas, Corine Astesano

    Intelligibilité de la parole et qualité de vie. Réflexions à partir des résultats de l’étude «carcinologic speech severity index»

    8e Journees de Phonetique Clinique (JPC 2019), May 2019, Mons, Belgique. pp.15-16

    Accès: https://hal.archives-ouvertes.fr/hal-02453124

  • Julien Pinquier, Jérome Farinas, Xavier de Boissezon, Patrice Peran, Lola Danet, Mélanie Jucla

    EVOLEX : apport de la reconnaissance vocale pour le diagnostic des dysfonctionnements cognitifs légers

    8e Journees de Phonetique Clinique (JPC 2019), May 2019, Mons, Belgique. pp.105-106

    Accès: https://hal.archives-ouvertes.fr/hal-02442023

  • Marc Moreaux, Michaël Garcia Ortiz, Isabelle Ferrané, Frédéric Lerasle

    Localisation sonore par attention et apprentissage profond semi-supervisé

    Congrès Francophone de Reconnaissance des Formes et Intelligence Artificielle (RFIA), Jun 2018, Marne-la-Vallée, France. pp.1-3

    Accès: https://hal.archives-ouvertes.fr/hal-02289999

  • Sébastien Ferreira, Jérome Farinas, Julien Pinquier, Stéphane Rabant

    Prédiction a priori de la qualité de la transcription automatique de la parole bruitée

    32e Journées d’Etudes sur la Parole (JEP 2018), Jun 2018, Aix-En-Provence, France. pp.249-257

    Accès: https://hal.archives-ouvertes.fr/hal-02124434

  • Céline Manenti, Thomas Pellegrini, Julien Pinquier

    Identification non-supervisée de pseudo-phones à l’aide de k-means et de réseaux convolutifs

    26e Colloque GRETSI sur le Traitement du Signal et des Images (GRETSI 2017), Sep 2017, Juan-les-Pins, France. pp.1-4

    Accès: https://hal.archives-ouvertes.fr/hal-02559763

  • Christine Sènac, Thomas Pellegrini, Julien Pinquier, Florian Mouret

    Réseaux de neurones convolutifs et paramètres musicaux pour la classification en genres

    XXVIe Colloque GRETSI sur le Traitement du Signal et des Images (GRETSI 2017), Sep 2017, Juan-les-pins, France. pp.1-5

    Accès: https://hal.archives-ouvertes.fr/hal-02871339

  • Conférences sans actes publiés
    Livres (monographies)
  • Alexandre Boyer, Etienne Sicard

    Basis of Electromagnetic Compatibility of Integrated Circuits – A modeling approach using IC-EMC

    Presses Universitaires du Midi – Collection Pour l’ingénieur. Presses universitaires du Midi (PUM), 390p., 2017, 978-2-8107-0522-1

    Accès: https://hal.archives-ouvertes.fr/hal-01951651

  • Contributions à des ouvrages de synthèse
    Thèses et habilitations
  • Abdelwahab Heba

    Reconnaissance automatique de la parole à large vocabulaire : des approches hybrides aux approches End-to-End

    Son [cs.SD]. Université toulouse 3 Paul Sabatier, 2021. Français

    Accès: https://hal.archives-ouvertes.fr/tel-03269807

  • Wael Farid Youssef

    Instantiation of a textual description schema of video surveillance scenes

    Image Processing [eess.IV]. Université Paul Sabatier – Toulouse III, 2019. English. ⟨NNT : 2019TOU30249⟩

    Accès: https://tel.archives-ouvertes.fr/tel-02965857

  • Céline Manenti

    Découverte d’unités linguistiques à l’aide de méthodes d’apprentissage non supervisé

    Intelligence artificielle [cs.AI]. Université Paul Sabatier – Toulouse III, 2019. Français. ⟨NNT : 2019TOU30074⟩

    Accès: https://tel.archives-ouvertes.fr/tel-02893779

  • François-Xavier Decroix

    Apprentissage en ligne de signatures audiovisuelles pour la reconnaissance et le suivi de personnes au sein d’un réseau de capteurs ambiants

    Acoustique [physics.class-ph]. Université Paul Sabatier – Toulouse III, 2017. Français. ⟨NNT : 2017TOU30298⟩

    Accès: https://tel.archives-ouvertes.fr/tel-01988112

  • Thèses et habilitations
    Rapports
  • Etienne Sicard, Anne Menin-Sicard

    La diadococinésie et son application en orthophonique clinique

    [Rapport de recherche] insa toulouse. 2020

    Accès: https://hal.archives-ouvertes.fr/hal-02512856

  • Etienne Sicard, Anne Menin-Sicard

    Analyse de la qualité des phrases pour un bilan objectif de la parole

    [Rapport de recherche] INSA Toulouse. 2019

    Accès: https://hal.archives-ouvertes.fr/hal-02389764v2

  • Thomas Pellegrini, Céline Manenti, Julien Pinquier

    The IRIT-UPS system @ ZeroSpeech 2017

    [Research Report] IRIT. 2017

    Accès: https://hal.archives-ouvertes.fr/hal-03131886

  • Maëlys Salingre, Jérôme Farinas, Stéphane Rabant

    Automatic identification of French regional accent

    [Rapport de recherche] IRIT. 2017

    Accès: https://hal.archives-ouvertes.fr/hal-03120304

  • Rapports

    contrats de l’équipe

    AcronymeTitreResp. scDébut – fin
    LUDAU anr Découverte peu et non-supervisée d’unités audio à l’aide d’apprentissage profond Thomas PELLEGRINI
    2018 – 2022
    RUGBI anr Recherche d’unités linguistiques pertinentes pour améliorer la mesure de l’intelligibilité de la parole altérée par des troubles de production pathologique Jérôme FARINAS
    2018 – 2022
    ALAIA anr Apprentissage des Langues Assisté par Intelligence Artificielle Isabelle FERRANé
    2019 – 2022
    VOICE4PD – MSA
    [Contrat terminé]
    anr Diagnostic différentiel entre la maladie de Parkinson et l’atrophie multisystématisée par analyse numérique de la parole Julie MAUCLAIR
    2016 – 2021
    CIESS
    [Contrat terminé]
    CIESS : Contribution, indexation, et enrichissement d’un corpus de sons de l’environnement Régine ANDRé-OBRECHT
    2013 – 2016
    DIADEMS
    [Contrat terminé]
    Description, Indexation, Accés aux Documents Ethnomusicologiques et Sonores Régine ANDRé-OBRECHT
    2013 – 2016
    RIDDLE
    [Contrat terminé]
    Robots perceptuels et interactifs dédiés aux environnement quotidiens Isabelle FERRANé
    2012 – 2015
    ARTIS
    [Contrat terminé]
    autre Inversion articulatoire de la parole audiovisuelle pour la parole augmentée Régine ANDRé-OBRECHT
    2009 – 2013
    IMMED
    [Contrat terminé]
    autre Indexation de données multimédia embarquées pour le diagnostic et le traitement des démences Julien PINQUIER
    2009 – 2012
    AcronymeTitreResp. scDébut – fin
    TAPAS auropa Training Network on Automatic Processing of PAthological Speech Julie MAUCLAIR
    2017 – 2021
    VICTORIA
    [Contrat terminé]
    auropa Video analysis for Investigation of Criminal and TerrORIst Activities Philippe JOLY
    2017 – 2020
    AcronymeTitreResp. scDébut – fin
    EVOLEX2 Apport de la reconnaissance vocale pour le diagnostic de dysfonctionnements cognitifs légers Julien PINQUIER
    2018 – 2021
    2018-419 Système automatisé de mesure de l’intelligibilité Julien PINQUIER
    2018 – 2021
    AUDIOCAP Audition et handicap dans le bruit – vers la restauration de l’intelligibilité de la parole Julien PINQUIER
    2019 – 2021
    PATY Plateforme de traitement de parole atypique Jérôme FARINAS
    2021 – 2021
    INGPRO
    [Contrat terminé]
    Incidence des gestes sur la prononciation Isabelle FERRANé
    2019 – 2021
    ECREME
    [Contrat terminé]
    Expertises Musicale et Cognitive pour Recommandation Musicale personnaliséE Julien PINQUIER
    2017 – 2021
    Mesure de compréhenion de la parole
    [Contrat terminé]
    Mesure de compréhension de la parole : équipement électronique intelligent de mesure de la compréhension de la parole basée sur une approche cognitive sur l’exemple de la compréhension humaine Jérôme FARINAS
    2012 – 2015
    Vendredi 21 Mai 2021, 13h30
    Prédiction a priori de la qualité de la transcription automatique de la parole par l’analyse de l’environnement sonore
    Sébastien FERREIRA – Equipe SAMOVA, IRIT UT3 Paul Sabatier, En visioconférence
    #these
    Mardi 6 Avril 2021, 10h00
    Jusqu’où les goûts musicaux sont ils prédictibles par l’intelligence artificielle ?
    Nicolas DAUBAN – Equipe SAMOVA, IRIT UT3 Paul Sabatier, En visioconférence
    #these
    Lundi 22 Mars 2021, 17h00
    Reconnaissance automatique de la parole à large vocabulaire : des approches hybrides aux approches End-to-End
    Abdelwahab HEBA – Equipe SAMOVA, IRIT UT3 Paul Sabatier, En visioconférence
    #these
    Lundi 25 Mars 2019, 14h30
    Découverte d’unités linguistiques à l’aide de méthodes d’apprentissage non supervisé
    Céline MANENTI – Equipe SAMOVA – IRIT UT3 Paul Sabatier, IRIT, Auditorium J. Herbrand
    #these
    Mercredi 20 Décembre 2017, 10h30
    Apprentissage en ligne de signatures audiovisuelles pour la reconnaissance et le suivi de personnes au sein d’un réseau de capteurs ambiants
    François-Xavier DECROIX – Equipe SAMOVA – IRIT UT3 Paul Sabatier, IRIT, Auditorium J. Herbrand
    #these
    Mercredi 20 Juillet 2016, 10h00
    Synchronisation automatique d’un contenu audiovisuel avec un texte qui le décrit
    Hassan WEHBE – Equipe SAMOVA – IRIT UT3 Paul Sabatier, IRIT, Salle des Thèses
    #these
    Mardi 28 Juin 2016, 14h00
    Segmentation et regroupement en chanteurs. Application aux enregistrements ethnomusicologiques
    Marwa THLITHI – Equipe SAMOVA – IRIT UT3 Paul Sabatier, IRIT, Auditorium J. Herbrand
    #these
    Jeudi 3 Décembre 2015, 10h00
    Perception multimodale de l’homme pour l’interaction homme-robot
    Christophe MOLLARET – Equipe SAMOVA – IRIT UT3 Paul Sabatier, IRIT, Auditorium J. Herbrand
    #these
    Vendredi 21 Mars 2014, 14h30
    Caractérisation et reconnaissance de sons d’eau pour le suivi des activités de la vie quotidienne. Une approche fondée sur le signal, l’acoustique et la perception
    Patrice GUYOT – Equipe SAMOVA – IRIT UT3 Paul Sabatier, IRIT, Auditorium J. Herbrand
    #these
    Jeudi 9 Janvier 2020 – Vendredi 10 Janvier 2020
    12th Speech In Noise Workshop
    Hôtel-Dieu Saint-Jacques, Toulouse
    #congres En savoir plus
    Lundi 4 Juillet 2016 – Vendredi 8 Juillet 2016
    Journées d’Etudes sur la Parole
    INALCO, 75013 Paris
    #congres En savoir plus
    Jeudi 21 Février 2019, 11h00 – 12h00
    Weakly-supervised approaches for sound event detection
    Thomas PELLEGRINI – Equipe SAMOVA – IRIT (France) INP-ENSEEIHT, Salle des thèses
    #seminaire
    Mercredi 31 Août 2016, 10h00 – 12h00
    Advanced human robot social interaction: goals, challenges and approaches
    Sarah COSENTINO – Waseda University (Japon) UT3 Paul Sabatier, IRIT, Salle des Thèses
    #seminaire
    Lundi 20 Avril 2015, 13h30
    Analyse de signaux multi-composantes: avancées théoriques et applications musicales
    Dominique FOURER UT3 Paul Sabatier, IRIT, Salle des Thèses
    #seminaire
    Lundi 19 Mai 2014, 15h00
    Segmentations sonore et audiovisuelle ?
    Julien PINQUIER – Equipe SAMOVA – IRIT UT3 Paul Sabatier, IRIT, Auditorium J. Herbrand
    #hdr
    Jeudi 27 Mai 2021
    Séminaire AFCP — Phonétique Clinique (en remplacement de JPC2021)
    UT3 Paul Sabatier, En visioconférence
    #journee
    Mercredi 4 Septembre 2019 – Vendredi 6 Septembre 2019
    Training Network on Automatic Processing of PAthological Speech (TAPAS) TE3: Data Collection, Management and Ethical Practices
    UT3 Paul Sabatier, IRIT, Auditorium J. Herbrand
    #journee
    Jeudi 4 Octobre 2018
    2018 AIRBUS Air Traffic Control Challenge Workshop
    UT3 Paul Sabatier, IRIT, Auditorium J. Herbrand
    #journee
    Jeudi 8 Mars 2018
    Traitement automatique de la parole et ressources pour la didactique de l’oral en L2 : variation, corpus, techniques
    UT3 Paul Sabatier, IRIT, Auditorium J. Herbrand
    #journee
    Mercredi 4 Octobre 2017
    Workshop Language Didactics, Gestures & CALL
    UT3 Paul Sabatier, IRIT, Auditorium J. Herbrand
    #journee