Encadrements précédents
Utilisation de réseaux de neurones pour la découverte d’unités linguistiques élémentaires (phonèmes) uniquement à partir d’enregistrements sonores. La caractérisation de l'activité des usagers, en termes de déplacements, exploite des données extraites de caméras et de microphones disséminés dans une pièce, ces derniers formant ainsi un réseau épars de capteurs hétérogènes. Nous cherchons alors à extraire de ces données une signature audiovisuelle et une localisation grossière des personnnes transitant dans le réseau. Cette thèse aborde le sujet encore inexploré à notre connaissance de la segmentation et du regroupement en chanteurs dans des enregistrements musicaux. Nous proposons un système complet pour ce sujet en s'inspirant des travaux réalisés en segmentation et regroupement en locuteurs. Ce système est conçu pour fonctionner aussi bien sur des enregistrements musicaux de type studio que sur des enregistrements musicaux réalisés dans des conditions terrain. Le contexte général est la mise au point d'un ensemble d'outils de traitement automatique de l'audio afin de produire une indexation (semi-)automatique pour un accès intelligent à la collection d'enregistrements sonores. Cette thèse trouve une application directe à travers les données ethnomusicologiques issues des archives du CNRS-Musée de l'Homme, gérées par le Centre de Recherche en EthnoMusicologie (CREM) du Laboratoire d'Ethnologie et de Sociologie Comparative (LESC). La thèse se focalise sur les zones de superposition, à savoir la détection de phénomènes mettant en jeu plusieurs sources harmoniques. Nous nous sommes intéressés à deux types de détection : les choeurs à l'unisson (chant solo) et les contenus polyphoniques plus traditionnels (musiques superposées ou paroles superposées). Dans tous les cas, nous nous fondons sur une détection et un suivi des fréquences prédominantes du signal. Cette thèse se place dans le contexte du suivi des activités de la vie quotidienne d'un patient pour le diagnostic et le traitement des démences telles que la maladie d'Alzheimer. Nous présentons un système basé sur un nouveau descripteur audio, appelé couverture spectrale, qui permet de reconnaître les flux d'eau dans des signaux sonores issus d'environnements bruités. Nous avons élargi notre analyse aux études d'acoustique qui décrivent précisément l'origine des sons d'eau. Au niveau physique, ces sons proviennent principalement de la vibration de bulles d'air dans l'eau. Les études théoriques et l'analyse de signaux réels ont permis de mettre au point une nouvelle approche, fondée sur la détection fréquentielle de bulles d'air en vibration. Ce système est complémentaire avec le système de reconnaissance de flux d'eau, mais ne peux s'y substituer. Une étude sur les sons de liquide nous permet de comparer nos deux approches automatiques avec la perception humaine. Une expérience perceptive effectuée sur les catégories de sons de liquide valide l'aspect nécessaire et suffisant de nos deux approches sur un corpus varié de sons produits par des liquides dans le cadre du domicile. Tout d'abord, une méthode de détection et de caractérisation des interactions orales est proposée. Ensuite, une catégorisation des intervenants est réalisée via une méthode originale de reconnaissance automatique du rôle. Celle-ci se distingue de l'existant en reposant sur l'hypothèse selon laquelle les rôles (Présentateurs, journalistes, autres...) des intervenants sont accessibles par un ensemble de paramètres "bas niveau" (temporels, acoustiques et prosodiques). Enfin, les informations liées aux interactions orales et aux rôles des intervenants sont intégrés dans une méthode de structuration. Le premier niveau de description exploite les rôles détectés pour segmenter les enregistrements audiovisuels en zones de types "informations", "entretiens", "transition" et "intermède". Le second niveau de description permet de catégoriser les zones d'interaction en "débat", "interview", "chronique" et "relais". La validation du système appliqué au corpus EPAC a montré de bons résultats. L'extraction des paramètres dans les documents audiovisuels permet d'identifier 3 grandes classes de locuteurs : Présentateur, Journaliste et Autre. Les résultats obtenus révèlent un peu de confusion dans la distinction entre les journalistes et les autres. Cette étude analyse plus finement les paramètres en vue de mieux caractériser ces 2 rôles. Il s'agit d'une part d'un travail sur la distinction automatique entre les sons monophoniques et les sons polyphoniques. Nous avons proposé deux nouveaux paramètres, basés sur l'analyse d'un indice de confiance. La modélisation de la répartition bivariée de ces paramètres est realisée par des distributions de Weibull bivariées. Le problème de l'estimation des paramètres de cette distribution nous a conduit à proposer une méthode originale d'estimation dérivée de l'analyse des moments de la loi. Une série d'expériences nous permet de comparer notre système à des approches classiques, et de valider toutes les étapes de notre méthode. Nous proposons d'autre part une méthode de détection du chant, accompagnée. Cette méthode se base sur la détection du vibrato, un paramètre défini à partir de l'analyse de la fréquence fondamentale, et défini a priori pour les sons monophoniques. A l'aide de deux segmentations, nous étendons ce concept aux sons polyphoniques, en introduisant un nouveau paramètre : le vibrato étendu. Il s'agit d'une étude et d'un développement d'outils informatiques d'analyse de documents audiovisuels ayant pour objectif applicatif final la publication la plus automatique possible de collections d'émissions. Ces outils produisent les informations nécessaires à la construction d'outils de navigation à l'intérieur de la collection et de ses documents de façon à ce qu'un utilisateur puisse prendre connaissance de son contenu et accéder par navigation aux passages susceptibles de l'intéresser. L'intérêt est d'améliorer de manière importante les systèmes existants, qui sont basés sur une recherche par mots-clés associés manuellement aux émissions. Il a travaillé sur le projet ACADI dans le cadre du Réseau d'Excellence Européen MUSCLE. Il a effectué son stage sur la comparaison de documents par agrégation de descripteurs audiovisuels. Il s'agissait d'utiliser des caractéristiques sonores pertinentes afin de renforcer la mise en évidence de la structure temporelle des documents audiovisuels. J'ai encadré un groupe de TER avec José Arias sur le développement d'une plate-forme générique d'indexation sonore. Il s'agissait d'intégrer divers outils de paramétrisation, d'apprentissage et de reconnaissance de formes sous une plate-forme générique d'indexation audio. Ceci permettant à l'utilisateur d'effectuer l'apprentissage de modèles (MMG ou SVM) et d'évaluer les performances. Il a effectué son stage sur le couplage audio/vidéo : il s'agissait d'une caractérisation des intervenants grâce à des détections sonores et visuelles. Il a travaillé sur la recherche de sons clés (applaudissements et rires) en utilisant les méthodes à vecteurs supports. Il a comparé ses résultats à mon système de référence de détection de musique. José Arias est actuellement en thèse (bourse du Mexique) dans notre équipe. Il a réalisé un stage de 5 mois sur la détection de parole sur fond musical. L'objectif de ce stage était l'amélioration du système de transcription de notre équipe par adaptation des modèles acoustiques aux zones où la musique et la parole sont mêlées. J'ai encadré un groupe de TER sur la fusion d'informations audio et vidéo pour l'identification des personnages avec Gaël Jaffré et un autre groupe sur la création d'un analyseur de résultats pour des systèmes de classification sonore avec Jérôme Farinas. Elle a utilisé mon système de classification parole/musique basé sur une fusion par maximum de vraisemblance. Elle a étudié d'autres méthodes de fusion comme la théorie des probabilités et la théorie de l'évidence. Elle a ensuite effectué une thèse (2003-2006) au laboratoire LIUM de l'Université du Maine (Le Mans).
|
||||||||||||||||||