SAMOVA Team

Head : Julien PINQUIER

 

 

 
In the context of audio and video document indexing and retrieval, the main studies of the team deal with the correlated extraction of the audio and video information and its exploitation to propose intelligent access. This research implies studies on signal processing, on modeling and learning and also on audiovisual content structuring.

skills

Segmentation, indexing and audio and video structuring
Speech, music and environmental sounds
Multimodal conversational interaction
Pathological speech and hearing loss processing
Deep learning for audio and video analysis

Members team

Permanent members
Non-permanent members

publications team

International journals articles
National journals articles
  • Mathieu Balaguer, Timothy Pommée, Jérôme Farinas, Julien Pinquier, Virginie Woisard

    Paramètres perceptifs expliquant la sévérité du trouble de parole mesurée automatiquement en cancérologie ORL

    Rééducation orthophonique, Ortho édition, 2021, Chapitre : “De l’exploration à la prise en soins de la voix chez l’adulte : données actuelles.. sur la voie des voix”, 286, pp.1-13

    Accès: https://hal-univ-tlse3.archives-ouvertes.fr/hal-03277422

  • Mathieu Balaguer, Josiane Percodani, Virginie Woisard

    Le Carcinologic Handicap Index (CHI) : questionnaire d’autoévaluation du handicap à destination des patients traités pour cancer des VADS

    Annales françaises d’Oto-rhino-laryngologie et de Pathologie Cervico-faciale, Elsevier, United States, 2017, 134 (6), pp.382-387. ⟨10.1016/j.aforl.2016.07.021⟩

    Accès: https://hal.archives-ouvertes.fr/hal-02553232

  • National journals articles
    Special issues of journal
    International conferences articles
  • Quentin Portes, Julien Pinquier, Frédéric Lerasle, Jose Mendes-Carlalho

    Analyse multimodale d’interaction humaine dans le cockpit d’un véhicule

    18èmes journées francophones des jeunes chercheurs en vision par ordinateur (ORASIS 2021), Centre National de la Recherche Scientifique [CNRS]; Equipe REVA, IRIT : Institut de Recherche en Informatique de Toulouse, Sep 2021, Saint Ferréol, France

    Accès: https://hal.archives-ouvertes.fr/hal-03339623

  • Lucile Gelin, Thomas Pellegrini, Julien Pinquier, Morgane Daniel

    Simulating reading mistakes for child speech Transformer-based phone recognition

    Annual Conference of the International Speech Communication Association (INTERSPEECH), Aug 2021, Brno, Czech Republic

    Accès: https://hal.archives-ouvertes.fr/hal-03257870

  • Hervé Bredin, Antoine Laurent

    End-to-end speaker segmentation for overlap-aware resegmentation

    Interspeech 2021, Aug 2021, Brno, Czech Republic

    Accès: https://hal-univ-lemans.archives-ouvertes.fr/hal-03257524

  • Thomas Pellegrini

    Deep-learning-based central African primate species classification with MixUp and SpecAugment

    Interspeech 2021, Aug 2021, Brno, Czech Republic

    Accès: https://hal-univ-tlse3.archives-ouvertes.fr/hal-03298384

  • Robin Vaysse, Jérôme Farinas, Corine Astésano, Régine André-Obrecht

    Automatic extraction of speech rhythm descriptors for speech intelligibility assessment in the context of Head and Neck Cancers

    INTERSPEECH 2021, ISCA : International Speech and Communication Association, Aug 2021, Brno, Czech Republic

    Accès: https://hal-univ-tlse3.archives-ouvertes.fr/hal-03269227

  • Lionel Pibre, Sélim Mechrouh, Thomas Pellegrini, Julien Pinquier, Isabelle Ferrané

    Automatic macro segmentation into interaction sequence: a silence-based approach for meeting structuring

    Content-Based Multimedia Indexing (CBMI 2021), University of Lille – France, Jun 2021, Lille, France

    Accès: https://hal.archives-ouvertes.fr/hal-03273029

  • Léo Cances, Thomas Pellegrini

    Comparison of Deep Co-Training and Mean-Teacher approaches for semi-supervised audio tagging

    IEEE 46th International Conference on Acoustics, Speech and Signal Processing (ICASSP 2021), IEEE Signal Processing Society’s, Jun 2021, Toronto, Canada

    Accès: https://hal.archives-ouvertes.fr/hal-03170277

  • Thomas Pellegrini, Timothée Masquelier

    Fast threshold optimization for multi-label audio tagging using Surrogate gradient learning

    IEEE International Conference on Acoustics, Speech and Signal Processing, Jun 2021, Toronto, Canada

    Accès: https://hal.archives-ouvertes.fr/hal-03153644

  • Thomas Pellegrini, Romain Zimmer, Timothée Masquelier

    Low-activity supervised convolutional spiking neural networks applied to speech commands recognition

    IEEE Spoken Language Technology Workshop 2021, Jan 2021, Shenzhen (virtual), France

    Accès: https://hal.archives-ouvertes.fr/hal-03007620

  • Jorge Francisco Madrigal Diaz, Frédéric Lerasle, Lionel Pibre, Isabelle Ferrané

    Audio-Video detection of the active speaker in meetings

    IEEE 25th International Conference on Pattern Recognition (ICPR 2020), IAPR : International Association of Pattern Recognition, Jan 2021, Milan (virtual), Italy. ⟨10.1109/ICPR48806.2021.9412681⟩

    Accès: https://hal.archives-ouvertes.fr/hal-03125600

  • National conferences articles
  • Alain Ghio, Jérôme Farinas

    La laryngophoniatrie du futur

    Congrès National de la Société Française d’ORL, 2021, Paris, France

    Accès: https://hal.archives-ouvertes.fr/hal-03365266v3

  • Sébastien Ferreira, Jérome Farinas, Julien Pinquier, Stéphane Rabant

    Analyse du bruit pour la prédiction de la qualité de la transcription automatique de la parole

    27e Colloque du Groupe de Recherche sur le Traitement du Signal et des Images (GRETSI 2019), Aug 2019, Lille, France. pp.1-4

    Accès: https://hal.archives-ouvertes.fr/hal-02950726

  • Virginie Woisard, Jérome Farinas, Corine Astesano

    Intelligibilité de la parole et qualité de vie. Réflexions à partir des résultats de l’étude «carcinologic speech severity index»

    8e Journees de Phonetique Clinique (JPC 2019), May 2019, Mons, Belgique. pp.15-16

    Accès: https://hal.archives-ouvertes.fr/hal-02453124

  • Julien Pinquier, Jérome Farinas, Xavier de Boissezon, Patrice Peran, Lola Danet, Mélanie Jucla

    EVOLEX : apport de la reconnaissance vocale pour le diagnostic des dysfonctionnements cognitifs légers

    8e Journees de Phonetique Clinique (JPC 2019), May 2019, Mons, Belgique. pp.105-106

    Accès: https://hal.archives-ouvertes.fr/hal-02442023

  • Marc Moreaux, Michaël Garcia Ortiz, Isabelle Ferrané, Frédéric Lerasle

    Localisation sonore par attention et apprentissage profond semi-supervisé

    Congrès Francophone de Reconnaissance des Formes et Intelligence Artificielle (RFIA), Jun 2018, Marne-la-Vallée, France. pp.1-3

    Accès: https://hal.archives-ouvertes.fr/hal-02289999

  • Sébastien Ferreira, Jérome Farinas, Julien Pinquier, Stéphane Rabant

    Prédiction a priori de la qualité de la transcription automatique de la parole bruitée

    32e Journées d’Etudes sur la Parole (JEP 2018), Jun 2018, Aix-En-Provence, France. pp.249-257

    Accès: https://hal.archives-ouvertes.fr/hal-02124434

  • Céline Manenti, Thomas Pellegrini, Julien Pinquier

    Identification non-supervisée de pseudo-phones à l’aide de k-means et de réseaux convolutifs

    26e Colloque GRETSI sur le Traitement du Signal et des Images (GRETSI 2017), Sep 2017, Juan-les-Pins, France. pp.1-4

    Accès: https://hal.archives-ouvertes.fr/hal-02559763

  • Christine Sènac, Thomas Pellegrini, Julien Pinquier, Florian Mouret

    Réseaux de neurones convolutifs et paramètres musicaux pour la classification en genres

    XXVIe Colloque GRETSI sur le Traitement du Signal et des Images (GRETSI 2017), Sep 2017, Juan-les-pins, France. pp.1-5

    Accès: https://hal.archives-ouvertes.fr/hal-02871339

  • Conferences articles without published proceedings
    Books
  • Alexandre Boyer, Etienne Sicard

    Basis of Electromagnetic Compatibility of Integrated Circuits – A modeling approach using IC-EMC

    Presses Universitaires du Midi – Collection Pour l’ingénieur. Presses universitaires du Midi (PUM), 390p., 2017, 978-2-8107-0522-1

    Accès: https://hal.archives-ouvertes.fr/hal-01951651

  • Books parts
    Thesis and HDR
  • Abdelwahab Heba

    Reconnaissance automatique de la parole à large vocabulaire : des approches hybrides aux approches End-to-End

    Son [cs.SD]. Université toulouse 3 Paul Sabatier, 2021. Français

    Accès: https://hal.archives-ouvertes.fr/tel-03269807

  • Wael Farid Youssef

    Instantiation of a textual description schema of video surveillance scenes

    Image Processing [eess.IV]. Université Paul Sabatier – Toulouse III, 2019. English. ⟨NNT : 2019TOU30249⟩

    Accès: https://tel.archives-ouvertes.fr/tel-02965857

  • Céline Manenti

    Découverte d’unités linguistiques à l’aide de méthodes d’apprentissage non supervisé

    Intelligence artificielle [cs.AI]. Université Paul Sabatier – Toulouse III, 2019. Français. ⟨NNT : 2019TOU30074⟩

    Accès: https://tel.archives-ouvertes.fr/tel-02893779

  • François-Xavier Decroix

    Apprentissage en ligne de signatures audiovisuelles pour la reconnaissance et le suivi de personnes au sein d’un réseau de capteurs ambiants

    Acoustique [physics.class-ph]. Université Paul Sabatier – Toulouse III, 2017. Français. ⟨NNT : 2017TOU30298⟩

    Accès: https://tel.archives-ouvertes.fr/tel-01988112

  • Thesis and HDR
    Reports
  • Etienne Sicard, Anne Menin-Sicard

    La diadococinésie et son application en orthophonique clinique

    [Rapport de recherche] insa toulouse. 2020

    Accès: https://hal.archives-ouvertes.fr/hal-02512856

  • Etienne Sicard, Anne Menin-Sicard

    Analyse de la qualité des phrases pour un bilan objectif de la parole

    [Rapport de recherche] INSA Toulouse. 2019

    Accès: https://hal.archives-ouvertes.fr/hal-02389764v2

  • Maëlys Salingre, Jérôme Farinas, Stéphane Rabant

    Automatic identification of French regional accent

    [Rapport de recherche] IRIT. 2017

    Accès: https://hal.archives-ouvertes.fr/hal-03120304

  • Thomas Pellegrini, Céline Manenti, Julien Pinquier

    The IRIT-UPS system @ ZeroSpeech 2017

    [Research Report] IRIT. 2017

    Accès: https://hal.archives-ouvertes.fr/hal-03131886

  • Reports

    Contracts team

    AcronymeTitreResp. scDébut – fin
    LUDAU anr Découverte peu et non-supervisée d’unités audio à l’aide d’apprentissage profond Thomas PELLEGRINI
    2018 – 2022
    RUGBI anr Recherche d’unités linguistiques pertinentes pour améliorer la mesure de l’intelligibilité de la parole altérée par des troubles de production pathologique Jérôme FARINAS
    2018 – 2022
    ALAIA anr Apprentissage des Langues Assisté par Intelligence Artificielle Isabelle FERRANé
    2019 – 2022
    VOICE4PD – MSA
    [Contract completed]
    anr Diagnostic différentiel entre la maladie de Parkinson et l’atrophie multisystématisée par analyse numérique de la parole Julie MAUCLAIR
    2016 – 2021
    CIESS
    [Contract completed]
    CIESS : Contribution, indexation, et enrichissement d’un corpus de sons de l’environnement Régine ANDRé-OBRECHT
    2013 – 2016
    DIADEMS
    [Contract completed]
    Description, Indexation, Accés aux Documents Ethnomusicologiques et Sonores Régine ANDRé-OBRECHT
    2013 – 2016
    RIDDLE
    [Contract completed]
    Robots perceptuels et interactifs dédiés aux environnement quotidiens Isabelle FERRANé
    2012 – 2015
    ARTIS
    [Contract completed]
    autre Inversion articulatoire de la parole audiovisuelle pour la parole augmentée Régine ANDRé-OBRECHT
    2009 – 2013
    IMMED
    [Contract completed]
    autre Indexation de données multimédia embarquées pour le diagnostic et le traitement des démences Julien PINQUIER
    2009 – 2012
    AcronymeTitreResp. scDébut – fin
    TAPAS auropa Training Network on Automatic Processing of PAthological Speech Julie MAUCLAIR
    2017 – 2021
    VICTORIA
    [Contract completed]
    auropa Video analysis for Investigation of Criminal and TerrORIst Activities Philippe JOLY
    2017 – 2020
    AcronymeTitreResp. scDébut – fin
    EVOLEX2 Apport de la reconnaissance vocale pour le diagnostic de dysfonctionnements cognitifs légers Julien PINQUIER
    2018 – 2021
    AUDIOCAP Audition et handicap dans le bruit – vers la restauration de l’intelligibilité de la parole Julien PINQUIER
    2019 – 2021
    INGPRO
    [Contract completed]
    Incidence des gestes sur la prononciation Isabelle FERRANé
    2019 – 2021
    2018-419
    [Contract completed]
    Système automatisé de mesure de l’intelligibilité Julien PINQUIER
    2018 – 2021
    ECREME
    [Contract completed]
    Expertises Musicale et Cognitive pour Recommandation Musicale personnaliséE Julien PINQUIER
    2017 – 2021
    Mesure de compréhenion de la parole
    [Contract completed]
    Mesure de compréhension de la parole : équipement électronique intelligent de mesure de la compréhension de la parole basée sur une approche cognitive sur l’exemple de la compréhension humaine Jérôme FARINAS
    2012 – 2015
    Tuesday 12 October 2021, 14h00
    Mesure de l’altération de la communication par analyses automatiques de la parole spontanée après traitement d’un cancer oral ou oropharyngé
    Mathieu BALAGUER – Team SAMOVA, IRIT UT3 Paul Sabatier, IRIT, Auditorium J. Herbrand
    #these
    Friday 21 May 2021, 13h30
    A priori prediction of automatic speech transcription quality by sound environment analysis
    Sébastien FERREIRA – Team SAMOVA, IRIT UT3 Paul Sabatier, En visioconférence
    #these
    Tuesday 6 April 2021, 10h00
    Jusqu’où les goûts musicaux sont ils prédictibles par l’intelligence artificielle ?
    Nicolas DAUBAN – Team SAMOVA, IRIT UT3 Paul Sabatier, En visioconférence
    #these
    Monday 22 March 2021, 17h00
    Reconnaissance automatique de la parole à large vocabulaire : des approches hybrides aux approches End-to-End
    Abdelwahab HEBA – Team SAMOVA, IRIT UT3 Paul Sabatier, En visioconférence
    #these
    Monday 25 March 2019, 14h30
    Découverte d’unités linguistiques à l’aide de méthodes d’apprentissage non supervisé
    Céline MANENTI – Team SAMOVA – IRIT UT3 Paul Sabatier, IRIT, Auditorium J. Herbrand
    #these
    Wednesday 20 December 2017, 10h30
    Online learning of audiovisual signatures for people recognition and tracking within a network of ambient sensors
    François-Xavier DECROIX – Team SAMOVA – IRIT UT3 Paul Sabatier, IRIT, Auditorium J. Herbrand
    #these
    Wednesday 20 July 2016, 10h00
    Synchronisation automatique d’un contenu audiovisuel avec un texte qui le décrit
    Hassan WEHBE – Team SAMOVA – IRIT UT3 Paul Sabatier, IRIT, Salle des Thèses
    #these
    Tuesday 28 June 2016, 14h00
    Segmentation et regroupement en chanteurs. Application aux enregistrements ethnomusicologiques
    Marwa THLITHI – Team SAMOVA – IRIT UT3 Paul Sabatier, IRIT, Auditorium J. Herbrand
    #these
    Thursday 3 December 2015, 10h00
    Perception multimodale de l’homme pour l’interaction homme-robot
    Christophe MOLLARET – Team SAMOVA – IRIT UT3 Paul Sabatier, IRIT, Auditorium J. Herbrand
    #these
    Friday 21 March 2014, 14h30
    Caractérisation et reconnaissance de sons d’eau pour le suivi des activités de la vie quotidienne. Une approche fondée sur le signal, l’acoustique et la perception
    Patrice GUYOT – Team SAMOVA – IRIT UT3 Paul Sabatier, IRIT, Auditorium J. Herbrand
    #these
    Thursday 9 January 2020 – Friday 10 January 2020
    12th Speech In Noise Workshop
    Hôtel-Dieu Saint-Jacques, Toulouse
    #congres Know more
    Monday 4 July 2016 – Friday 8 July 2016
    Journées d’Etudes sur la Parole
    INALCO, 75013 Paris
    #congres Know more
    Thursday 21 February 2019, 11h00 – 12h00
    Weakly-supervised approaches for sound event detection
    Thomas PELLEGRINI – Team SAMOVA – IRIT (France) INP-ENSEEIHT, Salle des thèses
    #seminaire
    Wednesday 31 August 2016, 10h00 – 12h00
    Advanced human robot social interaction: goals, challenges and approaches
    Sarah COSENTINO – Waseda University (Japon) UT3 Paul Sabatier, IRIT, Salle des Thèses
    #seminaire
    Monday 20 April 2015, 13h30
    Analyse de signaux multi-composantes: avancées théoriques et applications musicales
    Dominique FOURER UT3 Paul Sabatier, IRIT, Salle des Thèses
    #seminaire
    Monday 19 May 2014, 15h00
    Segmentations sonore et audiovisuelle ?
    Julien PINQUIER – Team SAMOVA – IRIT UT3 Paul Sabatier, IRIT, Auditorium J. Herbrand
    #hdr
    Thursday 27 May 2021
    Séminaire AFCP — Phonétique Clinique (en remplacement de JPC2021)
    UT3 Paul Sabatier, En visioconférence
    #journee
    Wednesday 4 September 2019 – Friday 6 September 2019
    Training Network on Automatic Processing of PAthological Speech (TAPAS) TE3: Data Collection, Management and Ethical Practices
    UT3 Paul Sabatier, IRIT, Auditorium J. Herbrand
    #journee
    Thursday 4 October 2018
    2018 AIRBUS Air Traffic Control Challenge Workshop
    UT3 Paul Sabatier, IRIT, Auditorium J. Herbrand
    #journee
    Thursday 8 March 2018
    Traitement automatique de la parole et ressources pour la didactique de l’oral en L2 : variation, corpus, techniques
    UT3 Paul Sabatier, IRIT, Auditorium J. Herbrand
    #journee
    Wednesday 4 October 2017
    Workshop Language Didactics, Gestures & CALL
    UT3 Paul Sabatier, IRIT, Auditorium J. Herbrand
    #journee