Julien PINQUIER
|
Doctorat en Informatique et Télécommunications (2004)
Titre : Indexation sonore : recherche de composantes primaires pour une structuration audiovisuelle
J'ai soutenu une thèse en Informatique le 20 décembre 2004
à l'Université Paul Sabatier
(Toulouse III) au sein de l'équipe SAMOVA
de l'IRIT, sous la direction de Régine André-Obrecht.
Résumé de la thèse
Le développement croissant des données numériques et lexplosion des accès multimédia à
linformation, sont confrontés au manque doutils automatiques efficaces. Dans ce cadre, plusieurs
approches relatives à lindexation et la structuration de la bande sonore de documents audiovisuels
sont proposées. Leurs buts sont de détecter les composantes primaires telles que la parole, la
musique et les sons clés (jingles, sons caractéristiques, mots clés...).
Pour la classification parole/musique, trois paramètres inhabituels sont extraits : la modulation
de lentropie, la durée des segments (issue dune segmentation automatique) et le nombre de ces
segments par seconde. Les informations issues de ces trois paramètres sont ensuite fusionnées avec
celle issue de la modulation de lénergie à quatre hertz. Des expériences sur un corpus
radiophonique montrent la robustesse de ces paramètres : notre système possède un taux de
classification correcte supérieur à 90 %. Le système est ensuite comparé, puis fusionné à un
système classique basé sur des Modèles de Mélanges de lois Gaussiennes (MMG) et une analyse
cepstrale.
Un autre partitionnement consiste à détecter des sons clés. La sélection de candidats potentiels
est effectuée en comparant la « signature » de chacun des jingles au flux de données. Ce système
est simple par sa mise en oeuvre mais rapide et très efficace : sur un corpus audiovisuel dune
dizaine dheures (environ 200 jingles) aucune fausse alarme nest présente. Il y a seulement deux
omissions dans des conditions extrêmes. Les sons caractéristiques (applaudissements et rires) sont
modélisés à laide de MMG dans le domaine spectral. Un corpus télévisuel permet de valider cette
première étude par des résultats encourageants. La détection de mots clés est effectuée de manière
classique : il ne sagit pas ici daméliorer les systèmes existants mais de se placer toujours dans
un besoin de structuration. Ainsi, ces mots clés renseignent sur le type des émissions (journal,
météo, documentaire...).
Grâce à lextraction de ces composantes primaires, les émissions audiovisuelles peuvent être
annotées de manière automatique. Au travers de deux études, une réflexion est conduite quant à
lutilisation de ces composantes afin de trouver une structure temporelle aux documents. La
première étude permet une détection dun motif récurrent dans une collection démissions, dites de
plateau, alors que la seconde réalise la structuration en thèmes dun journal télévisé. Quelques
pistes de réflexions sur lapport de lanalyse vidéo sont développées et les besoins futurs sont
explorés.
Rapport et présentation