Julien PINQUIER

Julien PINQUIER

Statut :	Maître de Conférences
Equipe :	Structuration, Analyse et MOdélisation de documents Vidéo et Audio
Contact :	pinquier@irit.fr
Adresse :	IRIT - Equipe SAMOVA 118, route de Narbonne 31062 TOULOUSE Cedex 9
Localisation :	IRIT1 / Niveau 2, Bureau 225
Téléphone :	05 61 55 7434
Publications :

DEA 2IL (2001)

Titre : Indexation sonore : Parole / Musique / Bruit

En juin 2001, j'ai obtenu un Diplôme d'Etudes Approfondies en Informatique de l'Image et du Langage à l'Université Paul Sabatier (Toulouse III). Le stage s'est déroulé au sein de l'équipe SAMOVA de l'IRIT, sous la direction de Régine André-Obrecht.

L'équipe SAMOVA intervient au niveau de l'indexation sonore. Notre groupe de travail s'occupe plus précisément de la segmentation de la bande sonore et de la détection de « sons » clés (mot clé, bruitage). La première phase du travail permit de préciser chacune des composantes PMB (Parole, Musique et Bruit) et de trouver pour chacune d'elles, les détecteurs appropriés.

Contexte de l'indexation

L'accroissement du volume de données numériques (librairies audio sur Internet, base de données, bouquets numériques...) requiert aujourd'hui des outils de description de contenus afin d'en faciliter l'accès. L'indexation tente de répondre à ce besoin d'accès par le contenu (vidéo, image fixe, bande sonore ou texte) dans des domaines tels que les communications, l'éducation, l'archivage, la télévision...
L'indexation doit permettre de réduire le temps de recherche, et de classifier les documents multimédias pour aller plus précisément à l'information qui intéresse l'utilisateur. Par exemple pour un journal télévisé, il serait intéressant d'avoir accès directement à un reportage particulier, au bulletin météorologique, au sport ou à la bourse. La nouvelle norme ISO_MPEG7 se place dans cette optique de description du contenu des documents audio et vidéo. Les méthodes actuelles d'indexation sont en grandes parties manuelles : les documentalistes doivent lire, écouter, regarder pour annoter par thèmes et identifier les éléments. L'automatisation semble donc nécessaire pour généraliser l'accès en quantité aux documents audiovisuels.
La bande son d'un document audiovisuel est très souvent complexe, puisqu'elle résulte d'un mixage entre plusieurs sources sonores. Il peut être intéressant de rechercher des « bruits » ou des sons significatifs (applaudissements, effets spéciaux...), de repérer les passages musicaux, de détecter les locuteurs, de trouver des mots clés (pratiquer une recherche comme dans les documents textuels). Pour toutes ces raisons, la discrimination entre parole, musique et autres sons naturels ou synthétisés semble donc essentielle. Malheureusement, cette macro segmentation de la bande sonore, lorsque parole et musique peuvent se combiner entre elles ou avec toute sorte de bruits, reste à l'heure actuelle très difficile.

Sujet

Le but de mon stage était de concevoir un système capable de définir la notion de décomposition Parole/Musique/Bruit (PMB) par l'intermédiaire de détecteurs robustes. Il faut en particulier être capable de traiter la parole en ambiance « cocktail party » ou sur un fond musical. Cette décomposition est primordiale car une bande sonore (comme par exemple un document audiovisuel) est très souvent complexe, puisqu'elle résulte d'un mixage entre plusieurs sources sonores.

Résumé

La première phase du stage de DEA a consisté à recenser les principaux paramètres représentatifs de la parole et de la musique et à aborder les méthodes de classification classiquement trouvées dans la littérature. La deuxième phase a consisté à développer un système d'indexation Parole/Musique basée sur une modélisation différenciée pour chacune des classes parole et musique. Cette approche consiste à faire une séparation de chacune des composantes en Classe/NonClasse donc en Parole/NonParole et Musique/NonMusique. La mise en oeuvre a été faite à partir de Modèles de Mélanges de lois Gaussiennes (MMG). Durant cette phase, une expérimentation du système a été faite sur différents corpus de manière à trouver les choix les plus efficaces pour l'apprentissage (modèles purs ou non) et les seuils (notamment de lissage) permettant d'avoir les meilleurs résultats.

Rapport et présentation

Rapport format Word
Présentation format Powerpoint