IRIT - UMR 5505

English
CNRS
INPT
UPS
UT1
UTM
  Bandeau IRIT
 
Photo Pinquier Julien

  Julien PINQUIER


  Statut : Professeur
  Equipe :  Structuration, Analyse et MOdélisation de documents Vidéo et Audio
  Contact : julien.pinquier@irit.fr
  Adresse : IRIT - Equipe SAMOVA
118, route de Narbonne
31062 TOULOUSE Cedex 9
  Localisation : IRIT1 / Niveau 2, Bureau 225
  Téléphone : 05 61 55 7434
  Publications : Publications

 

Encadrements précédents


  • Etienne LABBE - Thèse, contrat doctoral (2020-2024)

    Titre : Description automatique des événements sonores par des méthodes d’apprentissage profond - CoNeTTE, un système d’Audio Captioning générique

  • Verdiana DE FINO - Thèse CIFRE avec Archean Technologies (2020-2024)

    Titre : Caractérisation et mesure de la compréhensibilité de la parole de locuteurs non natifs dans le cadre de l'apprentissage des langues

  • Sebastião QUINTAS - Thèse Actions Marie Sklodowska-Curie, projet H2020 (2019-2022)

    Titre : Deep Learning Approaches to Assess Speech Intelligibility of Head and Neck Cancer.

  • Estelle RANDRIA - Thèse CIFRE avec la société Archean Technologies (2018-2022)

    Titre : Compréhensibilité de contenus audiovisuels : quelles approches pour une mesure objective ?

  • Vincent ROGER - Thèse Université Fédérale de Toulouse / Région Occitanie (2019-2022)

    Titre : Modélisation de l’indice de sévérité du trouble de la parole à l’aide de méthodes d’apprentissage profond. D’une modélisation à partir de quelques exemples à un apprentissage auto-supervisé via une mesure entropique

  • Quentin PORTES - Thèse CIFRE avec le LAAS et la société Renault (2019-2022)

    Titre : Analyse multimodale de situations conflictuelles en contexte véhicule.

  • Lucile GELIN - Thèse CIFRE avec la société Lalilo (2019-2022)

    Titre : Reconnaissance automatique de la parole d’enfants apprenants lecteurs et apprenantes lectrices en salle de classe : modélisation acoustique de phonèmes.

  • Timothy POMMEE - Thèse Actions Marie Sklodowska-Curie, projet H2020 (2018-2021)

    Titre : Les mesures d'intelligibilité : état de l'art, considérations pratiques pour l'applicabilité clinique et explorations acoustiques.

  • Mathieu BALAGUER - Thèse, projet RUGBI, IRIT/CHU (2018/2021)

    Titre : Impact fonctionnel des troubles de la parole évalués par une mesure automatique sur les actes de communication quotidiens chez les patients traités pour un cancer de la cavité buccale ou de l'oropharynx.

  • Sébastien FERREIRA - Thèse CIFRE avec la société AUTHOT (2017/2021)

    Titre : Prédiction a priori de la qualité de la transcription automatique de la parole par l'analyse de l'environnement sonore

  • Nicolas DAUBAN - Université fédérale de Toulouse / Région Occitanie (2017/2021)

    Titre : Jusqu’où les goûts musicaux sont-ils prédictibles par l’IA ?

  • Céline Manenti - Thèse, contrat doctoral (2015/2019)

    Titre : Découverte d'unités linguistiques à l'aide de méthodes d'apprentissage non-supervisé.
  • Utilisation de réseaux de neurones pour la découverte d’unités linguistiques élémentaires (phonèmes) uniquement à partir d’enregistrements sonores.


  • Francois-Xavier DECROIX - Thèse du Président, IRIT/LAAS (2013/2017)

    Titre : Apprentissage en ligne de signatures audiovisuelles pour la reconnaissance et le suivi de personnes au sein d'un réseau de capteurs ambiant.
  • La caractérisation de l'activité des usagers, en termes de déplacements, exploite des données extraites de caméras et de microphones disséminés dans une pièce, ces derniers formant ainsi un réseau épars de capteurs hétérogènes. Nous cherchons alors à extraire de ces données une signature audiovisuelle et une localisation grossière des personnnes transitant dans le réseau.


  • Marwa THLITHI - Thèse, projet DIADEMS (2013/2016)

    Titre : Segmentation et regroupement en chanteurs. Application aux enregistrements ethnomusicologiques.
  • Cette thèse aborde le sujet encore inexploré à notre connaissance de la segmentation et du regroupement en chanteurs dans des enregistrements musicaux. Nous proposons un système complet pour ce sujet en s'inspirant des travaux réalisés en segmentation et regroupement en locuteurs. Ce système est conçu pour fonctionner aussi bien sur des enregistrements musicaux de type studio que sur des enregistrements musicaux réalisés dans des conditions terrain.


  • Maxime LE COZ - Thèse, contrat doctoral (2010/2014)

    Titre : Spectre de rythme et sources multiples. Au coeur des contenus ethnomusicologiques et sonores.
  • Le contexte général est la mise au point d'un ensemble d'outils de traitement automatique de l'audio afin de produire une indexation (semi-)automatique pour un accès intelligent à la collection d'enregistrements sonores. Cette thèse trouve une application directe à travers les données ethnomusicologiques issues des archives du CNRS-Musée de l'Homme, gérées par le Centre de Recherche en EthnoMusicologie (CREM) du Laboratoire d'Ethnologie et de Sociologie Comparative (LESC). La thèse se focalise sur les zones de superposition, à savoir la détection de phénomènes mettant en jeu plusieurs sources harmoniques. Nous nous sommes intéressés à deux types de détection : les choeurs à l'unisson (chant solo) et les contenus polyphoniques plus traditionnels (musiques superposées ou paroles superposées). Dans tous les cas, nous nous fondons sur une détection et un suivi des fréquences prédominantes du signal.


  • Patrice GUYOT - Thèse, projet IMMED (2010/2014)

    Titre : Caractérisation et reconnaissance de sons d'eau pour le suivi des activités de la vie quotidienne. Une approche fondée sur le signal, l'acoustique et la perception.
  • Cette thèse se place dans le contexte du suivi des activités de la vie quotidienne d'un patient pour le diagnostic et le traitement des démences telles que la maladie d'Alzheimer. Nous présentons un système basé sur un nouveau descripteur audio, appelé couverture spectrale, qui permet de reconnaître les flux d'eau dans des signaux sonores issus d'environnements bruités. Nous avons élargi notre analyse aux études d'acoustique qui décrivent précisément l'origine des sons d'eau. Au niveau physique, ces sons proviennent principalement de la vibration de bulles d'air dans l'eau. Les études théoriques et l'analyse de signaux réels ont permis de mettre au point une nouvelle approche, fondée sur la détection fréquentielle de bulles d'air en vibration. Ce système est complémentaire avec le système de reconnaissance de flux d'eau, mais ne peux s'y substituer. Une étude sur les sons de liquide nous permet de comparer nos deux approches automatiques avec la perception humaine. Une expérience perceptive effectuée sur les catégories de sons de liquide valide l'aspect nécessaire et suffisant de nos deux approches sur un corpus varié de sons produits par des liquides dans le cadre du domicile.


  • Benjamin BIGOT - Thèse, projet EPAC (2008/2011)

    Titre : Recherche du rôle des intervenants et de leurs interactions pour la structuration des documents audiovisuels.
  • Tout d'abord, une méthode de détection et de caractérisation des interactions orales est proposée. Ensuite, une catégorisation des intervenants est réalisée via une méthode originale de reconnaissance automatique du rôle. Celle-ci se distingue de l'existant en reposant sur l'hypothèse selon laquelle les rôles (Présentateurs, journalistes, autres...) des intervenants sont accessibles par un ensemble de paramètres "bas niveau" (temporels, acoustiques et prosodiques). Enfin, les informations liées aux interactions orales et aux rôles des intervenants sont intégrés dans une méthode de structuration. Le premier niveau de description exploite les rôles détectés pour segmenter les enregistrements audiovisuels en zones de types "informations", "entretiens", "transition" et "intermède". Le second niveau de description permet de catégoriser les zones d'interaction en "débat", "interview", "chronique" et "relais". La validation du système appliqué au corpus EPAC a montré de bons résultats.


  • Jéthro DATHUS - Master 2 Recherche (2010/2011)

    Sujet : Etude de la variation temporelle de paramètres permettant la reconnaissance de rôles des locuteurs dans les documents audiovisuels.
  • L'extraction des paramètres dans les documents audiovisuels permet d'identifier 3 grandes classes de locuteurs : Présentateur, Journaliste et Autre. Les résultats obtenus révèlent un peu de confusion dans la distinction entre les journalistes et les autres. Cette étude analyse plus finement les paramètres en vue de mieux caractériser ces 2 rôles.


  • Hélène LACHAMBRE - Thèse MENRT (2006/2009)

    Sujet : Caractérisation de l'environnement musical dans les documents audiovisuels.
  • Il s'agit d'une part d'un travail sur la distinction automatique entre les sons monophoniques et les sons polyphoniques. Nous avons proposé deux nouveaux paramètres, basés sur l'analyse d'un indice de confiance. La modélisation de la répartition bivariée de ces paramètres est realisée par des distributions de Weibull bivariées. Le problème de l'estimation des paramètres de cette distribution nous a conduit à proposer une méthode originale d'estimation dérivée de l'analyse des moments de la loi. Une série d'expériences nous permet de comparer notre système à des approches classiques, et de valider toutes les étapes de notre méthode. Nous proposons d'autre part une méthode de détection du chant, accompagnée. Cette méthode se base sur la détection du vibrato, un paramètre défini à partir de l'analyse de la fréquence fondamentale, et défini a priori pour les sons monophoniques. A l'aide de deux segmentations, nous étendons ce concept aux sons polyphoniques, en introduisant un nouveau paramètre : le vibrato étendu.


  • Jérémy PHILIPPEAU - Thèse CIFRE à l'INA (2006/2009)

    Sujet : Apprentissage de similarité pour l'aide à l'organisation de contenus audiovisuels.
  • Il s'agit d'une étude et d'un développement d'outils informatiques d'analyse de documents audiovisuels ayant pour objectif applicatif final la publication la plus automatique possible de collections d'émissions. Ces outils produisent les informations nécessaires à la construction d'outils de navigation à l'intérieur de la collection et de ses documents de façon à ce qu'un utilisateur puisse prendre connaissance de son contenu et accéder par navigation aux passages susceptibles de l'intéresser. L'intérêt est d'améliorer de manière importante les systèmes existants, qui sont basés sur une recherche par mots-clés associés manuellement aux émissions.


  • Frédéric GIANNI - Post-Doc (2007/2008)

  • Il a travaillé sur le projet ACADI dans le cadre du Réseau d'Excellence Européen MUSCLE.
    En savoir plus...


  • Ali Mcheik - Master 2 (2005/2006)

  • Il a effectué son stage sur la comparaison de documents par agrégation de descripteurs audiovisuels. Il s'agissait d'utiliser des caractéristiques sonores pertinentes afin de renforcer la mise en évidence de la structure temporelle des documents audiovisuels.


  • TER - M1 IUP SI (2005/2006)

  • J'ai encadré un groupe de TER avec José Arias sur le développement d'une plate-forme générique d'indexation sonore. Il s'agissait d'intégrer divers outils de paramétrisation, d'apprentissage et de reconnaissance de formes sous une plate-forme générique d'indexation audio. Ceci permettant à l'utilisateur d'effectuer l'apprentissage de modèles (MMG ou SVM) et d'évaluer les performances.


  • Jérémy Philippeau - Master 2 (2004/2005)

  • Il a effectué son stage sur le couplage audio/vidéo : il s'agissait d'une caractérisation des intervenants grâce à des détections sonores et visuelles.


  • José Arias - DEA (2003/2004)

  • Il a travaillé sur la recherche de sons clés (applaudissements et rires) en utilisant les méthodes à vecteurs supports. Il a comparé ses résultats à mon système de référence de détection de musique. José Arias est actuellement en thèse (bourse du Mexique) dans notre équipe.


  • Julien Parry - Stage IUP SI (2003/2004)

  • Il a réalisé un stage de 5 mois sur la détection de parole sur fond musical. L'objectif de ce stage était l'amélioration du système de transcription de notre équipe par adaptation des modèles acoustiques aux zones où la musique et la parole sont mêlées.


  • TER - M1 Informatique (2003/2004)

  • J'ai encadré un groupe de TER sur la fusion d'informations audio et vidéo pour l'identification des personnages avec Gaël Jaffré et un autre groupe sur la création d'un analyseur de résultats pour des systèmes de classification sonore avec Jérôme Farinas.


  • Julie Mauclair - DEA (2001/2002)

  • Elle a utilisé mon système de classification parole/musique basé sur une fusion par maximum de vraisemblance. Elle a étudié d'autres méthodes de fusion comme la théorie des probabilités et la théorie de l'évidence. Elle a ensuite effectué une thèse (2003-2006) au laboratoire LIUM de l'Université du Maine (Le Mans).

     

    Haut de page