A-Contour
thématique
Les récents progrès
réalisés en matière de communication
(réseaux hauts débits et sans fil,
normalisation des protocoles et des
architectures à objets répartis,
explosion de l'Internet) permettent
aujourd'hui d'envisager la construction
de systèmes dinformation de grande
envergure au cur desquels se
trouvent de gros volumes
dinformation multiforme, répartis
à léchelle planétaire sur des
équipements variés (de la carte à puce
aux gisements de données). La
flexibilité et lautonomie offertes
par les réseaux et par les
infrastructures réparties pour produire,
partager, et accéder à des données
distribuées entraînent une
prolifération dinformation sans
précédent. Cependant les technologies
utilisées pour organiser, fusionner,
interroger et manipuler ces informations
sont encore pauvres et il reste à concevoir
et à développer des modèles, des
langages, des interfaces, des systèmes
et des infrastructures logicielles
ouvertes permettant un accès et une
manipulation efficace et sûr à ces
ressources hétérogènes et distribuées
à l'échelle mondiale, en toute
transparence pour les utilisateurs.
Les travaux en Bases
de Données et Recherche
dInformation sont au cur
de la problématique de
développement des systèmes
dinformation répartis de demain
permettant à une très large communauté
dutilisateurs daccéder à de
multiples ressources préexistantes
(données, documents, opérations),
autonomes et potentiellement
hétérogènes comme des bases de
données relationnelles ou à objets, des
documents multimédias et des fichiers
semi-structurés ou non structurés. Pour
mener à bien ces travaux, nous
souhaitons faire évoluer et combiner les
avancées et les recherches de deux
domaines qui sont très actifs
aujourdhui, à savoir celui des
bases de données BD et celui de la
recherche dinformation RI.
Les travaux dans le monde
des BD concernent principalement les
modèles (relationnels, objets,
semi-structurés,
), les langages
de requêtes et le rapprochement avec les
langages de programmation en offrant la
persistance des données ainsi que les
notions de transactions dans des
systèmes ou des architectures
distribués sur différents types de
réseaux. Ce qui caractérise
dabord les approches et
problématiques en recherche
dinformations, cest que les
attributs doivent être élicités à
partir de lanalyse des corpus
explorés alors quils sont
explicités à priori dans les
environnements traditionnels des données
structurées ce qui introduit un niveau
de complexité supplémentaire. Les
travaux dans le domaine de la RI
concernent les modèles de
représentation du contenu sémantique
des documents multimédia ainsi que les
modèles dinteraction entre ces
contenus et les usagers dans un contexte
de satisfaction de besoin
dinformation. Les points
dancrage avec le domaine des BD
sont nombreux allant de la modélisation
de requêtes et de données incertaines,
imprécises, flexibles aux modèles de
propagation du contenu sémantique en
fonction des structures des documents, en
passant par loptimisation des
structures de représentation et de
manipulation des documents.
Le domaine
dapplication est immense et couvre
aussi bien les systèmes
dinformation scientifiques
(génétique, astronomie, environnement,
bibliothèques numériques
) que les
systèmes industriels et tertiaires
(supervision et contrôle pour le
transport et lénergie, systèmes
décisionnel, bases de données des
opérateurs de télécommunications,
intelligence économique, veille
stratégique et scientifique
).

Hétérogénéité :
les informations à traiter sont
hétérogènes à plusieurs titres :
hétérogénéité
sémantique des contenus : la
recherche, l'exploration et
l'analyse dans un ensemble de
sources d'informations associées
à des domaines sémantiques non
nécessairement identiques,
nécessitent une phase préalable
de sélection des collections
pertinentes suivie
éventuellement d'une phase de
fusion puis d'unification. A ce
niveau intervient
lindexation des contenus
dont la finalité est
lextraction et la
représentation concise (en
fonction de modèles
dutilisation) des concepts
sémantiques qui leurs sont
attachés. Cette indexation doit
combiner les niveaux physiques
(caractéristiques
brutes des contenus
comme couleur, texture,
)
et les niveaux symboliques
permettant une interprétation
sémantique.
hétérogénéité
structurelle des données :
totalement structurées,
semi-structurées ou faiblement
structurées. Au delà de
laspect partiel ou total,
le contexte dappréhension
et de manipulation peut faire
intervenir des structures
sémantiques multiples.
hétérogénéité
de type : textes, images
fixes ou animées, sons. Dans ce
contexte, il est nécessaire
d'extraire du contenu des
indicateurs pour interroger les
diverses sources : couleur,
texture, formes pour des images,
segmentation en plans, scènes,
séquences, pour des vidéos,
identification de locuteur, de
type de son, de mots pour des
données audio, et
dassocier éventuellement
des descripteurs textuels.
hétérogénéité
de formats: RTF, MIF, HTML,
XML,
pour les textes,...
MPEG7 pour la vidéo, etc.
hétérogénéité
de langues pour les textes ou
l'audio.
A cette
hétérogénéité sajoutent
plusieurs éléments caractéristiques de
lévolution actuelle avec des
changements déchelle dans la
taille et le volume des données mais
aussi dans le nombre et la nature des
sources dinformation existantes et
disponibles au travers des réseaux de
différentes natures et pour un public de
plus en plus large.

Changement
déchelle dans la taille et le
volume des données distribuées :
il faut compter aujourdhui en
milliards d'objets d'un million d'octets
chacun dans certaines sources de
données : textes, images, documents
XML, séquences audio MP3, vidéo MPEG4
ou 7. On va passer des giga-octets (109)
et téra-octets (1012) a des
yotta -octets (1024). On
aurait calculé que dans les trois ans
qui viennent on allait générer et
stocker une masse dinformation
supérieure à celle emmagasinée par
toute lhumanité au cours des 40
000 dernières années. Fin 2000, il y
avait 900 millions de documents sur le
Web, soit environ 17 téraoctets dont 7
téraoctets de textes.

Ubiquité
et mobilité : La
mise au point de calculateurs de plus en
plus légers, puissants, autonomes et
connectables à lInternet
(portables, assistants personnels,
téléphones cellulaires, cartes à
puces) a permis un développement rapide
de lubiquitous computing. Ce
type de traitement se caractérise par la
capacité offerte à un utilisateur
daccéder à ses données à tout
moment, de nimporte où et à
partir de nimporte quel terminal.
Les domaines dapplication sont
multiples : accès dun
utilisateur a ses données privées
(données bancaires, agenda, carnet
dadresses, dossier médical, bookmarks
), diffusion de données publiques
vers une population de mobiles (trafic
routier, cours de la bourse, météo
), accès à une base de données
dentreprise par des collaborateurs
mobiles ou encore traitement coopératif
entre plusieurs personnes travaillant de
façon désynchronisée
(cest-à-dire non connectées
simultanément). Ces besoins sont à
mettre en opposition avec les contraintes
fortes induites par lenvironnement
matériel et logiciel utilisé :
faible débit des réseaux hertziens,
déconnexions fréquentes (volontaires ou
non), faibles capacités des terminaux
mobiles en terme daffichage,
dautonomie électrique, de
puissance de traitement et de stockage,
inadéquation des outils de médiation
(middleware) conçus jusquà
présent pour interconnecter des clients
et des serveurs fixes.
Qualité :
le concept de qualité est transversal
aux axes de recherche notamment sur la
fraîcheur de linformation, la
disponibilité, la complétude,
de
linformation.
Infrastructures
matérielles et logicielles ouvertes :
Pour répondre aux exigences des
systèmes dinformation plusieurs
types dinfrastructures et
architecture sont nécessaires ainsi, le
système de bases de données (SGBD)
monolithe tel quon la connu
jusquà aujourdhui est
révolu. De même le serveur de données
universel a montré ses limites. Tout
ceci doit laisser la place à une série
de services ou composants assurant des
fonctions précises qui se combinent dans
des architectures matérielles et
logicielles variées.
Les fonctions des
services ou composants bases de données
doivent (globalement) pouvoir supporter
des contraintes des applications,
s'adapter aux diverses configurations de
bases de données (de la carte à puce
aux gisements de données) et tenir
compte des avancées en matière
d'architecture matérielle (disques
RAID), de systèmes d'exploitation (noyau
adaptable, adressage 64 bits), de
réseaux (haut débit, qualité de
service), d'architecture parallèle
(machine SMP), de grappes de machines
(GRID). Il est évident que cela ne
pourra se faire que si les composants
sont adaptables et extensibles,
contribuant ainsi à louverture
(adaptation dynamique) des
infrastructures et des systèmes
dinformations cibles.

B-Axes de
recherche
Représentation
et interrogation efficace de données
multiformes
documents
semi-structurés (en XML, par
exemple) où la structure (totale
ou partielle) est un graphe à
plusieurs niveaux (TAG, valeurs,
attributs),
données
multimédias comme les images,
les courbes de mesures, ou bien
des données extraites de ces
dernières comme les descripteurs
d'images, ou le contour de formes
contenues dans les images,
La représentation,
l'intégration et la manipulation de
données multidimensionnelles constituent
des challenges importants. La compacité
de stockage pour de gros volumes de
données et l'efficacité des accès aux
données restent des problèmes ouverts
et sensibles à l'heure actuelle pour
faire face à l'émergence croissante des
sources de données sur Internet. Vu sous
langle des BD, cet axe de recherche
couvre lensemble des techniques et
algorithmes liés au stockage et
à la recherche efficace de
linformation. Il sintéresse
donc (i) à la représentation sur disque
de données quelconques ; (ii) aux
méthodes dindexation et
dévaluation (optimisation) de
requêtes permettant daccélérer
les recherches sur le contenu et la
structure de ces données. Dans le
contexte des documents, la recherche
dinformation recouvre plusieurs
points :
Identification
de granules
documentaires :
alors que pour les données
structurées, la granularité des
objets information
manipulés est encapsulée dans
la structure de la collection,
dans les approches RI elle doit
se déterminer (se calculer) à
partir des caractéristiques de
la (ou des dans une
approche multibase) collection(s)
explorée(s). La finesse de la
prise en compte de ce concept
influe sur le comportement du
système de recherche qui selon
le niveau de granularité
répondra plus ou moins
précisément (signaler le fait
que les éléments de réponse
recherchés se trouvent dans le
livre X est moins
précis que signaler le fait
quil se situe dans le
chapitre Y du livre
X, le système étant
capable de traiter le contenu de
X selon une
granularité quil estime et
détermine),
interrogation
avec des énoncés de requêtes
flexibles qui
seront appréhendés de façon
nuancée par le système selon
lutilisateur qui formule la
requête. Dans
ce contexte où
linteraction homme-système
est primordiale, il faut étendre
la notion de modèle de recherche
dinformation à la prise en
compte plus large de la
" recherche
dinformation
interactive ". Cet
objectif implique
dintégrer de nouveaux
paradigmes tels que le profil de
lutilsateur, la recherche
dinformation
collaborative,
Les profils
peuvent être explicités via des
descripteurs hiérarchisés, des
ontologies
utilisateur ou des
vues de bases de données. Le
processus dinterprétation
de requête doit pouvoir faire
intervenir des stratégies
dexpansion (via thésaurus,
ontologies, préférences et
similarités,
.), de
reformulation, et il doit
supporter
lhétérogénéité
linguistique.
restitution des
réponses selon plusieurs niveaux
dabstraction (vue
synthétique/développée, vue
néophyte/expérimenté,
) notamment
lors de lexploration de
grandes collections (au moins 100
Giga de textes). Cette
restitution peut sappuyer
sur des techniques visuelles
destinées à faciliter
lélicitation
d informations
caractéristiques qui pourront
être réinjectées dans de
nouvelles requêtes formulées
plus finement. De même, elle
doit proposer des mécanismes
explicatifs visant à expliciter
le comportement du système pour
que
lutilisateur-spécifieur de
requête puisse rapprocher les
concept de pertinence
système avec sa propre
appréhension du concept de
pertinence
utilisateur.

Médiation
de sources de données
Cet axe concerne les
systèmes multibases répartis, les
entrepôts de données (data
warehouses), les portails Web sur
Internet ou Intranet, etc. Ces systèmes
correspondent à des infrastructures de médiation :
ils offrent un accès transparent à de
multiples sources de données, cachant la
complexité sous-jacente en offrant à
lutilisateur des facilités
dinterrogation, de navigation et
dadministration. Les
caractéristiques communes à
lensemble de ces systèmes
sont (i) une forte
hétérogénéité des sources de
données (ii) un besoin de vision globale
de la structure du système
dinformation, des règles de
correspondance avec les sources qui
lalimentent et des contraintes
daccès et de traitement sur ces
sources, (iii) un souci dobtenir
des données de qualité, notamment en ce
qui concerne leur fraîcheur, leur
cohérence, leur fiabilité et leur
complétude.
Les travaux effectués
auparavant sadaptent difficilement
à un environnement largement distribué
et très changeant comme celui de
lInternet. Il faut offrir une
vision intégrée et cohérente dun
ensemble de sources de données
hétérogènes, un langage puissant
dinterrogation (SQL, OQL) ou
lun des langages de type XQuery
proposés pour linterrogation de
documents XML, ainsi quune
cohérence des transactions
multi-sources. Un couplage fort entre
sources de données hétérogènes peut
être contraignant et coûteux pour
certaines applications qui désirent
privilégier la simplicité,
lefficacité et la dynamicité à
grande échelle. De plus, les
infrastructures de médiation doivent
sadapter aux données multiformes,
à la forte dynamicité de
lInternet, autoriser des résultats
partiels de requêtes en cas
dindisponibilité de certaines
sources de données, et être efficaces
même en cas de requêtes complexes et/ou
de trafic réseau inconstant. Un autre
aspect important concerne le fait que les
mises à jour des données du système
information sont faites par propagation
des modifications survenues dans les
sources. Il faut alors tenir compte de la
qualité des données, notamment de leur
fraîcheur. La propagation immédiate des
mises à jour faîtes sur les sources est
un problème très complexe surtout à
l'échelle d'un système construit sur un
grand nombre de sources (des milliers par
exemple). Or il faut constater que selon
les types d'applications, les
utilisateurs n'ont pas les mêmes
exigences de fraîcheur. On peut alors
concentrer l'effort de maintenance sur
les données qui nécessitent un degré
de fraîcheur élevé. Par ailleurs, les
sources de données n'étant pas en
permanence disponibles (soit parce
qu'elles sont déconnectées, soit parce
que leur accès est limité), il n'est
pas toujours envisageable de refléter
immédiatement le contenu des sources. Il
est donc important dindiquer à
chaque utilisateur le degré de
fraîcheur de l'information mise à sa
disposition. Il faut noter que le degré
de fraîcheur de certaines informations
peut fortement influencer la cohérence
et la précision d'autres (cas des
agrégats particulièrement).
La médiation de sources
de données se fait en plusieurs
étapes :
1. Identification des
sources susceptibles de répondre à un
besoin, dans un contexte
dexploration dun ensemble
hétérogène de collections. Il
sagit de spécifier des approches
(collaboratives) pour caractériser le
contenu des collections en utilisant par
exemple les concepts dannotations
éventuellement multidimensionnelles
et/ou de méta-données, les concepts
dontologies de domaine, les
concepts de profil de
collections (descripteur hiérarchisé
caractérisant le contenu de la
collection ). Notons que la notion de
méta-données est présente en bases de
données et en recherche
dinformation. On essayera alors de
létendre en diversifiant sa nature
et sa structure, et en proposant des
opérateurs d'accès et de manipulation
spécifiques.
2. création
dentrepôts par fusion de données
pour arriver à des représentations
uniformes garantissant si nécessaire un
retour à la donnée source.
Luniformisation peut concerner
lhétérogénéité linguistique
qui peut être maîtrisée via des
approches basées sur le croisement de
langues via des dictionnaires et/ou des
corpus alignés voire des ontologies
alignées. Elle
peut aussi concerner le codage de
l'information (cas des dates), les
unités de mesure (dollar, euro),
l'échelle des mesures (kilo, méga,
téra), etc. Ces derniers cas peuvent
être approchés par des règles de
transformation appliquées avant et/ou
après la fusion.
3. appréhension de
sources dinformations dynamiques
comme les News ou la
messagerie, nécessitant la mise en
uvre de stratégies de filtrage via
des concepts de profil, de préférence.
Ce type de sources est particulièrement
intéressant en intelligence économique
ou dans certains systèmes décisionnels.
Les principaux problèmes sont
l'extraction dynamique de connaissances
à partir de ces sources et la
notification de ces connaissances aux
utilisateurs concernés. Des techniques
de 'text mining' et de dissémination
sélective d'information doivent être
utilisées.

Gestion
de données dans des environnements
mobiles
La gestion des données
en environnement mobile ouvre des
perspectives de recherche très riches.
Tout dabord, les modes
dinteraction client-serveur
traditionnels doivent être
reconsidérés. Il faut être capable de
gérer le caractère spatio-temporel des
requêtes émises à partir de mobiles
(ex : liste des hôtels atteignables
en moins de 5 minutes). Par ailleurs, la
diffusion dinformation (mode Push)
ainsi que les modes dinteraction de
type publication/souscription
sadaptent mieux à la faible bande
passante des réseaux hertziens et à
lasynchronisme généré par les
déconnexions. Dautre part, la
gestion de données embarquées dans des
calculateurs mobiles ultra-légers pose
de nouveaux challenges en terme
déconomie de ressources (énergie
électrique, RAM, capacité de stockage
persistant) et dadaptation aux
architectures matérielles souvent très
spécialisées de ces calculateurs.
Préserver la cohérence de traitements
effectués en mode déconnecté à partir
de ces calculateurs nécessite également
la définition de protocoles
sophistiqués de réconciliation de
copies. La notion même de cohérence
doit être revue car les propriétés
transactionnelles ACID peuvent
difficilement être assurées dans un
contexte ou clients et serveurs sont
potentiellement mobiles et susceptibles
de se déconnecter. Enfin, nombre
dutilisateurs mobiles et
dentreprises ont recours à des
hébergeurs de données sur
lInternet (Database Service
Provider) afin daugmenter la
disponibilité de leurs données. Se pose
alors le problème de préserver la
confidentialité des données mises en
ligne face à des attaques de pirates
aussi bien que face à des utilisations
illicites de ces données par les
hébergeurs.

|