PRETI accueil IRIT accueil

 
publication

Identification des sujets abordés dans les documents


 Objectif

Parcourir un texte sans l'analyser en repérant les mots significatifs. On ne cherche pas à résumer le texte mais plutôt à avoir une idée de son contenu sémantique.

Identifier les thèmes d'un texte : 1- les mots significatifs, 2- puis les phrases informatives.
    Significatifs, informatives sont des notions graduelles floues, d'où l'utilisation des ensembles flous.

 Approche

  1. Représentation du contenu du document : ensemble de clusters de concepts
    Un cluster regroupe des termes qui font référence à une même idée conceptuelle. Cette idée peut-être très présente dans un document même si chacun des termes qui y font référence sont peu fréquents dans le document.
    La méthode d'extraction est basée sur les synsets de WordNet. En cas de mots ou d'expression polysémiques, utilisation d'une méthode de désambiguïsation pour choisir le sens le plus plausible
  2. Extraction des termes représentatifs basée sur des fonctions d'évaluation floues mettant en oeuvre des critères de spécificité, de "centralité" et de fréquence.
  3. Extraction des phrases significatives.

Pour plus d'information, voir l'article dans LFA 2009

 Expérimentation

Les documents : Une collection de 20 articles issus du Web portant sur le naufrage de l'Erika. Chaque article traite l'évènement d'un point de vue différent.

Le but de l'expérimentation :

Les résultats obtenus sont de bonne qualité (83.3% des thèmes manuellement extraits ont été identifiés).

Résultats sur le document no20 : extraction des mots significatifs
Nbre
de termes
Nbre
d'itérations
Nbre
de clusters selectionnés
Termes extraits du texte URL
document
295 515
1: {C0:{sea} C3:{prosecution} C5:{oil, tanker} }
2: {C0:{euro} C3:{case, prosecutor} C5:{ship} }
3: {C0:{france} C3:{trial} C7:{week, year} C10:{company} C13:{plaintiff}
C15:{monday} C17:{damage, charge} C18:{pollution} C22:{sea_bird, seabird}
C24:{sinking} C25:{beginning} C27:{subsidiary} C29:{check} C35:{disaster} }
4: {C0:{bay} C3:{verdict, court} C5:{fuel} C25:{individual} }
5: {C0:{paris, brittany, coast} }
WWW


Résultats sur le document no20 : confrontation extraction automatique/jugement usager
Phrases informatives
extraites automatiquement
Nb termes
/ phrases
Nb termes
/ document
Thèmes généraux
identifiés indépendamment par des usagers
Prosecutor wants Total convicted for Erika disaster
PARIS (Reuters) - French oil giant Total should be convicted of maritime pollution for its role in the sinking of the oil tanker Erika, which provoked one of France's worst environmental disasters, prosecutors said on Monday.
The company denies the charges
48295
Prosecutor wants Total convicted for Erika disaster
Erica history and effects seabirds
Total failed to conduct proper checks before chartering the ageing ship.
Total had faced pollution and negligence charges as well as complicity in endangering human lives over the incident.
Prosecution convict six other individuals and organizations.

PRETI accueil Dernière modification le 15/03/2017