Nos partenaires

CNRS

Rechercher





Accueil du site > Français > Thèmes de recherche > Thème 1 - Analyse et synthèse de l’information > Equipe SAMoVA

Equipe SAMoVA

Structuration, Analyse et Modélisation de documents Vidéo et Audio
Responsable : Julien Pinquier

 

L’équipe SAMoVA est née en 2002 suite à une réflexion menée entre Philippe Joly, issu du monde de la vidéo et l’équipe ART.ps (Analyse, Reconnaissance et Traitement de la parole et du son) : l’audio-visuel ayant pris une place prépondérante dans nos sociétés, il est apparu nécessaire d’aborder le traitement des signaux audio-vidéo comme un ensemble et non seulement comme deux signaux temporels juxtaposés. En d’autres termes, la volonté sous jacente en rassemblant audio et vidéo est d’arriver à une très bonne connaissance des deux domaines pour étudier à terme les deux médias de manière corrélée et les exploiter de manière plus pertinente et robuste.

Même si la volonté affichée de l’équipe est d’aborder conjointement l’audio et la vidéo, de nombreuses études restent mono média. Cela est particulièrement vrai au niveau de l’analyse bas niveau des signaux. Au niveau de la modélisation, les études sont orientées classification mais restent appliquées à un seul média. L’étude trans-média apparaît au niveau des études de structuration des documents audiovisuels, valorisées par des applications en indexation.

 

Analyse des signaux

En analyse de l’audio, les travaux exploitent l’algorithme de segmentation « forwardbackward  ». Une version robuste à l’environnement, au bruit, au locuteur et indépendante de la langue permet de localiser l’information pertinente et de l’extraire de manière appropriée dans différents domaines :

  • En identification automatique des langues : à partir des segments et d’une localisation des segments vocaliques, une unité prosodique « la pseudo syllabe » a permis de caractériser le rythme et l’intonation. La prosodie a ainsi été introduite dans un système automatique traditionnellement basée sur l’acoustique et la phonotactique.
  • En vérification du locuteur : la segmentation localise les zones transitoires, toutes zones proches des frontières. Ces zones sont plus riches en information que les zones stables dans un système de vérification du locuteur.
  • En détection parole/musique : la segmentation n’a absolument pas le même comportement en parole et musique. La modélisation de cette répartition a permis de rendre plus robuste cette détection.

En vidéo, une approche similaire conduit à produire différents types d’analyse sur les résultats d’une segmentation préliminaire en plans par détection d’effets de transition cuts ou progressifs, et, le cas échéant, sur les résultats d’une microsegmentation en mouvements de caméra opérée sur une représentation spatiotemporelle du contenu appelée « image X-ray ».

 

Modélisation et apprentissage

Orientées vers des problèmes de classification et de fouille de données, les méthodes étudiées sont empruntées à la fois à l’approche générative et à l’approche discriminante, tout en restant dans le cadre supervisé :

  • La recherche des corrélations entre les paramètres a conduit à une étude approfondie sur les réseaux bayésiens (RB). Ces derniers ont été utilisés pour concevoir de nouveaux modèles probabilistes de la parole qui conduisent à une meilleure fidélité et plus de robustesse que les HMMs (Modèles de Markov Cachés). Les RBs sont aussi utilisés pour concevoir un nouveau modèle pour le langage naturel.
  • Plus récemment, un nouveau modèle a été proposé à partir des méthodes SVM afin de prendre en compte l’important volume des données d’apprentissage et la nécessité de traiter des suites de trames de signal de longueur variable en parole. Un nouveau noyau de séquences, fondé sur les espaces de Hilbert à noyaux reproduisant, a été développé. Ce noyau a conduit à un modèle performant de classification SVM qui est en outre algorithmiquement rapide. Ce modèle a été évalué en vérification du locuteur.

Dès lors que les sources d’informations (appelées experts) deviennent multiples (intra média et trans média), la fusion d’informations devient un sujet essentiel. Afin de dépasser la classique combinaison des scores par pondération arithmétique, des indices de confiance relatifs aux observations, aux experts et aux classes sont définis et considérés comme paramètres dans le processus de fusion. La théorie des probabilités, des possibilités et de l’évidence sont explorées dans une tâche d’identification des langues. La combinaison de ces approches s’est montrée très satisfaisante. Les traditionnels GMM (Mélanges de lois gaussiennes) et les HMM (ont servi de modèles de référence lors des expériences d’évaluation. En vidéo, des travaux sont menés sur l’analyse des mouvements d’un personnage humain à partir d’un modèle articulé hiérarchique. Les aspects hiérarchiques permettent de gérer les contraintes de temps de calcul, de précision des résultats, et d’échelonnabilité de la description produite. Ce modèle sert de support à l’expression homogène de trois types de contraintes qui doivent être satisfaites pour identifier la position correspondant : au meilleur appariement, au meilleur suivi, et à la meilleure cohérence des liaisons du modèle.

 

Structuration audiovisuelle

Deux axes sont explorés actuellement pour le traitement conjoint des données audio ou vidéo. Ces deux axes consistent à définir des espaces de votes dans lesquels toutes ces données peuvent être exploitées de manière conjointe.

  • Le premier axe concerne la mise en évidence de l’existence (ou de l’absence) de relations synchrones entre deux types d’événements dans un document audiovisuel. Par événement, nous entendons ici un « segment dans lequel un certain type d’information est présent » comme par exemple un visage, un locuteur, de la musique, un logo, etc. Une représentation à trois paramètres des relations temporelles permet de définir un espace de vote à trois dimensions dans lequel votent tous les couples de segments issus de deux segmentations différentes. On peut ainsi observer la présence simultanée d’une même voix avec un même visage par exemple. Ces travaux ont pour but de mettre en évidence l’organisation structurelle d’un document ou d’une collection, ou simplement l’existence d’une corrélation entre des caractéristiques en l’absence de toute hypothèse préconçue.
  • Le deuxième axe concerne la mise en évidence d’une similarité de style entre deux enregistrements. Une observation (une mesure) est effectuée selon la dimension temporelle des deux documents à comparer. On obtient ainsi deux séries de valeurs qu’on va chercher à apparier lorsque des tronçons de leur évolution sont à peu près semblables. S’inspirant des méthodes développées pour l’analyse des séries chronologiques, ce travail a fait l’objet d’une proposition d’un algorithme original. Le résultat est une matrice de similarité pour chaque caractéristique évaluée. En fusionnant les matrices obtenues sur plusieurs caractéristiques, il est possible d’effectuer deux types d’observations : des segments diagonaux de valeurs élevées, signalent la présence d’un segment audiovisuel commun aux deux enregistrements ; un bloc rectangulaire de valeurs élevées révèle la présence de deux segments présentant une forte similarité de style. De la structure de cette matrice dérive une mesure de similarité et l’expression d’une distance qui permet d’effectuer une classification automatique en genre ou en collection (par clustering).

Cette rubrique ne contient aucun article.