Le
développement considérable qua
connu Internet ces dernières années,
notamment avec lapparition de la
Toile (ou World Wide Web), a conduit à
une croissance quasi exponentielle du
nombre dutilisateurs de ce type de
ressources, mais également du nombre de
documents mis à disposition. Ce
phénomène est accentué par la mise en
place dIntranets et
dExtranets dentreprises, mais
également par le développement des
bibliothèques numériques. Estimés à
quelques centaines de milliers de textes
accessibles à tout un chacun au tout
début du Web, en 1993, la masse
dinformations sur Internet
dépassait les 900 millions de documents
fin 2000, soit un volume de données
denviron 17 téraoctets (millions
de millions de caractères, soit 1012)
dont 7 téraoctets pour le seul texte.
Certains observateurs saccordent à
dire que ces volumes doublent tous les 20
mois.
Ce changement déchelle dans la
taille des corpus réactualise les
problèmes liés au stockage et à la
recherche efficaces dinformation,
et va de fait conduire à
lémergence de nouveaux problèmes
directement liés au facteur
volumétrique.
La généralisation de
linformation multimédia apporte
aussi des problèmes liés plus ou moins
directement à la volumétrie.
Linformation de base elle-même est
volumineuse et nécessite de fait un
stockage réparti. Les descriptions que
lon pourra y associer, notamment
avec la proposition MPEG-7, deviendront
rapidement volumineuses si aux
descriptions originales sont associées
diverses annotations. (Ces dernières
seront indispensables pour mieux décrire
les informations multimédia selon
plusieurs points de vues, améliorant
ainsi leur(s)
" sémantique(s) ".)
Enfin, les descriptions de bas niveau,
bien quétant des résumés
plus ou moins significatifs des signaux
dorigine, nen restent pas
moins volumineuses (ex. :
histogrammes mono- ou même
multi-dimensionnels, quelques centaines
de points dintérêts par image,
etc.).