AS 91: Recherche d'information et passage à l'échelle dans la taille des corpus
 
 
    Problématique
    Objectifs
    Laboratoires
    Membres
 
 
 
 


Contact

Problématique

Le développement considérable qu’a connu Internet ces dernières années, notamment avec l’apparition de la Toile (ou World Wide Web), a conduit à une croissance quasi exponentielle du nombre d’utilisateurs de ce type de ressources, mais également du nombre de documents mis à disposition. Ce phénomène est accentué par la mise en place d’Intranets et d’Extranets d’entreprises, mais également par le développement des bibliothèques numériques. Estimés à quelques centaines de milliers de textes accessibles à tout un chacun au tout début du Web, en 1993, la masse d’informations sur Internet dépassait les 900 millions de documents fin 2000, soit un volume de données d’environ 17 téraoctets (millions de millions de caractères, soit 1012) dont 7 téraoctets pour le seul texte. Certains observateurs s’accordent à dire que ces volumes doublent tous les 20 mois.

Ce changement d’échelle dans la taille des corpus réactualise les problèmes liés au stockage et à la recherche efficaces d’information, et va de fait conduire à l’émergence de nouveaux problèmes directement liés au facteur volumétrique.

La généralisation de l’information multimédia apporte aussi des problèmes liés plus ou moins directement à la volumétrie. L’information de base elle-même est volumineuse et nécessite de fait un stockage réparti. Les descriptions que l’on pourra y associer, notamment avec la proposition MPEG-7, deviendront rapidement volumineuses si aux descriptions originales sont associées diverses annotations. (Ces dernières seront indispensables pour mieux décrire les informations multimédia selon plusieurs points de vues, améliorant ainsi leur(s) " sémantique(s) ".) Enfin, les descriptions de bas niveau, bien qu’étant des résumés plus ou moins significatifs des signaux d’origine, n’en restent pas moins volumineuses (ex. : histogrammes mono- ou même multi-dimensionnels, quelques centaines de points d’intérêts par image, etc.).