DEA 2IL (2001) Titre : Indexation sonore : Parole / Musique / BruitEn juin 2001, j'ai obtenu un Diplôme d'Etudes Approfondies en Informatique de l'Image et du Langage
à l'Université Paul Sabatier
(Toulouse III). Le stage s'est déroulé au sein de
l'équipe SAMOVA
de l'IRIT, sous la direction de Régine André-Obrecht. Contexte de l'indexationL'accroissement du volume de données numériques (librairies audio sur
Internet, base de données, bouquets numériques...) requiert aujourd'hui
des outils de description de contenus afin d'en faciliter l'accès.
L'indexation tente de répondre à ce besoin d'accès par le contenu
(vidéo, image fixe, bande sonore ou texte) dans des domaines tels que
les communications, l'éducation, l'archivage, la télévision... SujetLe but de mon stage était de concevoir un système capable de définir la
notion de décomposition Parole/Musique/Bruit (PMB) par l'intermédiaire
de détecteurs robustes. Il faut en particulier être capable de
traiter la parole en ambiance « cocktail party » ou sur un fond
musical. Cette décomposition est primordiale car une bande sonore
(comme par exemple un document audiovisuel) est très souvent complexe,
puisqu'elle résulte d'un mixage entre plusieurs sources sonores. RésuméLa première phase du stage de DEA a consisté à recenser les principaux
paramètres représentatifs de la parole et de la musique et à aborder
les méthodes de classification classiquement trouvées dans la
littérature.
La deuxième phase a consisté à développer un système
d'indexation Parole/Musique basée sur une modélisation différenciée
pour chacune des classes parole et musique. Cette approche consiste à
faire une séparation de chacune des composantes en Classe/NonClasse
donc en Parole/NonParole et Musique/NonMusique. La mise en oeuvre a été
faite à partir de Modèles de Mélanges de lois Gaussiennes (MMG).
Durant cette phase, une expérimentation du système a été faite sur
différents corpus de manière à trouver les choix les plus efficaces
pour l'apprentissage (modèles purs ou non) et les seuils (notamment de
lissage) permettant d'avoir les meilleurs résultats.
Rapport et présentation
|
||||||||||||||||||