RTP 9 : Bases de données et d'informations hétérogènes et distribuées  
 
 
    Présentation
    Pilotage
    Laboratoires
    Mots clés
    Poster
 
    AS associée(s)
    Réunions

Présentation

Document réalisé en avril 2002, modifié le 18/07/2002

A. Contour thématique

B. Axes de recherche


A-Contour thématique

Les récents progrès réalisés en matière de communication (réseaux hauts débits et sans fil, normalisation des protocoles et des architectures à objets répartis, explosion de l'Internet) permettent aujourd'hui d'envisager la construction de systèmes d’information de grande envergure au cœur desquels se trouvent de gros volumes d’information multiforme, répartis à l’échelle planétaire sur des équipements variés (de la carte à puce aux gisements de données). La flexibilité et l’autonomie offertes par les réseaux et par les infrastructures réparties pour produire, partager, et accéder à des données distribuées entraînent une prolifération d’information sans précédent. Cependant les technologies utilisées pour organiser, fusionner, interroger et manipuler ces informations sont encore pauvres et il reste à concevoir et à développer des modèles, des langages, des interfaces, des systèmes et des infrastructures logicielles ouvertes permettant un accès et une manipulation efficace et sûr à ces ressources hétérogènes et distribuées à l'échelle mondiale, en toute transparence pour les utilisateurs.

Les travaux en Bases de Données et Recherche d’Information sont au cœur de la problématique de développement des systèmes d’information répartis de demain permettant à une très large communauté d’utilisateurs d’accéder à de multiples ressources préexistantes (données, documents, opérations), autonomes et potentiellement hétérogènes comme des bases de données relationnelles ou à objets, des documents multimédias et des fichiers semi-structurés ou non structurés. Pour mener à bien ces travaux, nous souhaitons faire évoluer et combiner les avancées et les recherches de deux domaines qui sont très actifs aujourd’hui, à savoir celui des bases de données BD et celui de la recherche d’information RI.

Les travaux dans le monde des BD concernent principalement les modèles (relationnels, objets, semi-structurés, …), les langages de requêtes et le rapprochement avec les langages de programmation en offrant la persistance des données ainsi que les notions de transactions dans des systèmes ou des architectures distribués sur différents types de réseaux. Ce qui caractérise d’abord les approches et problématiques en recherche d’informations, c’est que les attributs doivent être élicités à partir de l’analyse des corpus explorés alors qu’ils sont explicités à priori dans les environnements traditionnels des données structurées ce qui introduit un niveau de complexité supplémentaire. Les travaux dans le domaine de la RI concernent les modèles de représentation du contenu sémantique des documents multimédia ainsi que les modèles d’interaction entre ces contenus et les usagers dans un contexte de satisfaction de besoin d’information. Les points d’ancrage avec le domaine des BD sont nombreux allant de la modélisation de requêtes et de données incertaines, imprécises, flexibles aux modèles de propagation du contenu sémantique en fonction des structures des documents, en passant par l’optimisation des structures de représentation et de manipulation des documents.

Le domaine d’application est immense et couvre aussi bien les systèmes d’information scientifiques (génétique, astronomie, environnement, bibliothèques numériques…) que les systèmes industriels et tertiaires (supervision et contrôle pour le transport et l’énergie, systèmes décisionnel, bases de données des opérateurs de télécommunications, intelligence économique, veille stratégique et scientifique …).

Hétérogénéité : les informations à traiter sont hétérogènes à plusieurs titres :

  • hétérogénéité sémantique des contenus : la recherche, l'exploration et l'analyse dans un ensemble de sources d'informations associées à des domaines sémantiques non nécessairement identiques, nécessitent une phase préalable de sélection des collections pertinentes suivie éventuellement d'une phase de fusion puis d'unification. A ce niveau intervient l’indexation des contenus dont la finalité est l’extraction et la représentation concise (en fonction de modèles d’utilisation) des concepts sémantiques qui leurs sont attachés. Cette indexation doit combiner les niveaux physiques (caractéristiques ‘brutes’ des contenus comme couleur, texture, … ) et les niveaux symboliques permettant une interprétation sémantique.

  • hétérogénéité structurelle des données : totalement structurées, semi-structurées ou faiblement structurées. Au delà de l’aspect partiel ou total, le contexte d’appréhension et de manipulation peut faire intervenir des structures sémantiques multiples.

  • hétérogénéité de type : textes, images fixes ou animées, sons. Dans ce contexte, il est nécessaire d'extraire du contenu des indicateurs pour interroger les diverses sources : couleur, texture, formes pour des images, segmentation en plans, scènes, séquences, pour des vidéos, identification de locuteur, de type de son, de mots pour des données audio, et d’associer éventuellement des descripteurs textuels.

  • hétérogénéité de formats: RTF, MIF, HTML, XML,… pour les textes,... MPEG7 pour la vidéo, etc.

  • hétérogénéité de langues pour les textes ou l'audio.

A cette hétérogénéité s’ajoutent plusieurs éléments caractéristiques de l’évolution actuelle avec des changements d’échelle dans la taille et le volume des données mais aussi dans le nombre et la nature des sources d’information existantes et disponibles au travers des réseaux de différentes natures et pour un public de plus en plus large.

Changement d’échelle dans la taille et le volume des données distribuées : il faut compter aujourd’hui en milliards d'objets d'un million d'octets chacun dans certaines sources de données : textes, images, documents XML, séquences audio MP3, vidéo MPEG4 ou 7. On va passer des giga-octets (109) et téra-octets (1012) a des yotta -octets (1024). On aurait calculé que dans les trois ans qui viennent on allait générer et stocker une masse d’information supérieure à celle emmagasinée par toute l’humanité au cours des 40 000 dernières années. Fin 2000, il y avait 900 millions de documents sur le Web, soit environ 17 téraoctets dont 7 téraoctets de textes.

Ubiquité et mobilité : La mise au point de calculateurs de plus en plus légers, puissants, autonomes et connectables à l’Internet (portables, assistants personnels, téléphones cellulaires, cartes à puces) a permis un développement rapide de l’ubiquitous computing. Ce type de traitement se caractérise par la capacité offerte à un utilisateur d’accéder à ses données à tout moment, de n’importe où et à partir de n’importe quel terminal. Les domaines d’application sont multiples : accès d’un utilisateur a ses données privées (données bancaires, agenda, carnet d’adresses, dossier médical, bookmarks …), diffusion de données publiques vers une population de mobiles (trafic routier, cours de la bourse, météo …), accès à une base de données d’entreprise par des collaborateurs mobiles ou encore traitement coopératif entre plusieurs personnes travaillant de façon désynchronisée (c’est-à-dire non connectées simultanément). Ces besoins sont à mettre en opposition avec les contraintes fortes induites par l’environnement matériel et logiciel utilisé : faible débit des réseaux hertziens, déconnexions fréquentes (volontaires ou non), faibles capacités des terminaux mobiles en terme d’affichage, d’autonomie électrique, de puissance de traitement et de stockage, inadéquation des outils de médiation (middleware) conçus jusqu’à présent pour interconnecter des clients et des serveurs fixes.

Qualité : le concept de qualité est transversal aux axes de recherche notamment sur la fraîcheur de l’information, la disponibilité, la complétude, … de l’information.

Infrastructures matérielles et logicielles ouvertes : Pour répondre aux exigences des systèmes d’information plusieurs types d’infrastructures et architecture sont nécessaires ainsi, le système de bases de données (SGBD) monolithe tel qu’on l’a connu jusqu’à aujourd’hui est révolu. De même le serveur de données universel a montré ses limites. Tout ceci doit laisser la place à une série de services ou composants assurant des fonctions précises qui se combinent dans des architectures matérielles et logicielles variées.

Les fonctions des services ou composants bases de données doivent (globalement) pouvoir supporter des contraintes des applications, s'adapter aux diverses configurations de bases de données (de la carte à puce aux gisements de données) et tenir compte des avancées en matière d'architecture matérielle (disques RAID), de systèmes d'exploitation (noyau adaptable, adressage 64 bits), de réseaux (haut débit, qualité de service), d'architecture parallèle (machine SMP), de grappes de machines (GRID). Il est évident que cela ne pourra se faire que si les composants sont adaptables et extensibles, contribuant ainsi à l’ouverture (adaptation dynamique) des infrastructures et des systèmes d’informations cibles.


B-Axes de recherche

Représentation et interrogation efficace de données multiformes 

  • documents semi-structurés (en XML, par exemple) où la structure (totale ou partielle) est un graphe à plusieurs niveaux (TAG, valeurs, attributs),

  • documents multi-structurés avec une structure logique et/ou plusieurs structures sémantiques,

  • données multimédias comme les images, les courbes de mesures, ou bien des données extraites de ces dernières comme les descripteurs d'images, ou le contour de formes contenues dans les images,

  • données spatiales ou spatio-temporelles notamment pour les médias temporels (audio, vidéo).

La représentation, l'intégration et la manipulation de données multidimensionnelles constituent des challenges importants. La compacité de stockage pour de gros volumes de données et l'efficacité des accès aux données restent des problèmes ouverts et sensibles à l'heure actuelle pour faire face à l'émergence croissante des sources de données sur Internet. Vu sous l’angle des BD, cet axe de recherche couvre l’ensemble des techniques et algorithmes liés au stockage et à la recherche efficace de l’information. Il s’intéresse donc (i) à la représentation sur disque de données quelconques ; (ii) aux méthodes d’indexation et d’évaluation (optimisation) de requêtes permettant d’accélérer les recherches sur le contenu et la structure de ces données. Dans le contexte des documents, la recherche d’information recouvre plusieurs points :

  • Identification de ‘granules documentaires’ : alors que pour les données structurées, la granularité des ‘objets information’ manipulés est encapsulée dans la structure de la collection, dans les approches RI elle doit se déterminer (se calculer) à partir des caractéristiques de la (ou des – dans une approche multibase) collection(s) explorée(s). La finesse de la prise en compte de ce concept influe sur le comportement du système de recherche qui selon le niveau de granularité répondra plus ou moins précisément (signaler le fait que les éléments de réponse recherchés se trouvent dans le livre ‘X’ est moins précis que signaler le fait qu’il se situe dans le chapitre ‘Y’ du livre ‘X’, le système étant capable de traiter le contenu de ‘X’ selon une granularité qu’il estime et détermine),

  • interrogation avec des énoncés de requêtes flexibles qui seront appréhendés de façon nuancée par le système selon l’utilisateur qui formule la requête. Dans ce contexte où l’interaction homme-système est primordiale, il faut étendre la notion de modèle de recherche d’information à la prise en compte plus large de la " recherche d’information interactive ". Cet objectif implique d’intégrer de nouveaux paradigmes tels que le profil de l’utilsateur, la recherche d’information collaborative,…

  • Les profils peuvent être explicités via des descripteurs hiérarchisés, des ontologies ‘utilisateur’ ou des vues de bases de données. Le processus d’interprétation de requête doit pouvoir faire intervenir des stratégies d’expansion (via thésaurus, ontologies, préférences et similarités,….), de reformulation, et il doit supporter l’hétérogénéité linguistique.

  • restitution des réponses selon plusieurs niveaux d’abstraction (vue synthétique/développée, vue néophyte/expérimenté,…) notamment lors de l’exploration de grandes collections (au moins 100 Giga de textes). Cette restitution peut s’appuyer sur des techniques visuelles destinées à faciliter l’élicitation d ‘informations caractéristiques qui pourront être réinjectées dans de nouvelles requêtes formulées plus finement. De même, elle doit proposer des mécanismes explicatifs visant à expliciter le comportement du système pour que l’utilisateur-spécifieur de requête puisse rapprocher les concept de ‘pertinence système’ avec sa propre appréhension du concept de ‘pertinence utilisateur’.

  • exploration des collections via des processus multidimensionnels (cf ; niveaux d’abstraction précédents), hiérarchiques (de type ‘browser’) et/ou navigationnels.

Médiation de sources de données 

Cet axe concerne les systèmes multibases répartis, les entrepôts de données (data warehouses), les portails Web sur Internet ou Intranet, etc. Ces systèmes correspondent à des infrastructures de médiation : ils offrent un accès transparent à de multiples sources de données, cachant la complexité sous-jacente en offrant à l’utilisateur des facilités d’interrogation, de navigation et d’administration. Les caractéristiques communes à l’ensemble de ces systèmes sont (i) une forte hétérogénéité des sources de données (ii) un besoin de vision globale de la structure du système d’information, des règles de correspondance avec les sources qui l’alimentent et des contraintes d’accès et de traitement sur ces sources, (iii) un souci d’obtenir des données de qualité, notamment en ce qui concerne leur fraîcheur, leur cohérence, leur fiabilité et leur complétude.

Les travaux effectués auparavant s’adaptent difficilement à un environnement largement distribué et très changeant comme celui de l’Internet. Il faut offrir une vision intégrée et cohérente d’un ensemble de sources de données hétérogènes, un langage puissant d’interrogation (SQL, OQL) ou l’un des langages de type XQuery proposés pour l’interrogation de documents XML, ainsi qu’une cohérence des transactions multi-sources. Un couplage fort entre sources de données hétérogènes peut être contraignant et coûteux pour certaines applications qui désirent privilégier la simplicité, l’efficacité et la dynamicité à grande échelle. De plus, les infrastructures de médiation doivent s’adapter aux données multiformes, à la forte dynamicité de l’Internet, autoriser des résultats partiels de requêtes en cas d’indisponibilité de certaines sources de données, et être efficaces même en cas de requêtes complexes et/ou de trafic réseau inconstant. Un autre aspect important concerne le fait que les mises à jour des données du système information sont faites par propagation des modifications survenues dans les sources. Il faut alors tenir compte de la qualité des données, notamment de leur fraîcheur. La propagation immédiate des mises à jour faîtes sur les sources est un problème très complexe surtout à l'échelle d'un système construit sur un grand nombre de sources (des milliers par exemple). Or il faut constater que selon les types d'applications, les utilisateurs n'ont pas les mêmes exigences de fraîcheur. On peut alors concentrer l'effort de maintenance sur les données qui nécessitent un degré de fraîcheur élevé. Par ailleurs, les sources de données n'étant pas en permanence disponibles (soit parce qu'elles sont déconnectées, soit parce que leur accès est limité), il n'est pas toujours envisageable de refléter immédiatement le contenu des sources. Il est donc important d’indiquer à chaque utilisateur le degré de fraîcheur de l'information mise à sa disposition. Il faut noter que le degré de fraîcheur de certaines informations peut fortement influencer la cohérence et la précision d'autres (cas des agrégats particulièrement).

La médiation de sources de données se fait en plusieurs étapes :

1. Identification des sources susceptibles de répondre à un besoin, dans un contexte d’exploration d’un ensemble hétérogène de collections. Il s’agit de spécifier des approches (collaboratives) pour caractériser le contenu des collections en utilisant par exemple les concepts d’annotations éventuellement multidimensionnelles et/ou de méta-données, les concepts d’ontologies de domaine, les concepts de ‘profil’ de collections (descripteur hiérarchisé caractérisant le contenu de la collection ). Notons que la notion de méta-données est présente en bases de données et en recherche d’information. On essayera alors de l’étendre en diversifiant sa nature et sa structure, et en proposant des opérateurs d'accès et de manipulation spécifiques.

2. création d’entrepôts par fusion de données pour arriver à des représentations uniformes garantissant si nécessaire un retour à la donnée source. L’uniformisation peut concerner l’hétérogénéité linguistique qui peut être maîtrisée via des approches basées sur le croisement de langues via des dictionnaires et/ou des corpus alignés voire des ontologies alignées. Elle peut aussi concerner le codage de l'information (cas des dates), les unités de mesure (dollar, euro), l'échelle des mesures (kilo, méga, téra), etc. Ces derniers cas peuvent être approchés par des règles de transformation appliquées avant et/ou après la fusion.

3. appréhension de sources d’informations dynamiques comme les ‘News’ ou la messagerie, nécessitant la mise en œuvre de stratégies de filtrage via des concepts de profil, de préférence. Ce type de sources est particulièrement intéressant en intelligence économique ou dans certains systèmes décisionnels. Les principaux problèmes sont l'extraction dynamique de connaissances à partir de ces sources et la notification de ces connaissances aux utilisateurs concernés. Des techniques de 'text mining' et de dissémination sélective d'information doivent être utilisées.

Gestion de données dans des environnements mobiles

La gestion des données en environnement mobile ouvre des perspectives de recherche très riches. Tout d’abord, les modes d’interaction client-serveur traditionnels doivent être reconsidérés. Il faut être capable de gérer le caractère spatio-temporel des requêtes émises à partir de mobiles (ex : liste des hôtels atteignables en moins de 5 minutes). Par ailleurs, la diffusion d’information (mode Push) ainsi que les modes d’interaction de type publication/souscription s’adaptent mieux à la faible bande passante des réseaux hertziens et à l’asynchronisme généré par les déconnexions. D’autre part, la gestion de données embarquées dans des calculateurs mobiles ultra-légers pose de nouveaux challenges en terme d’économie de ressources (énergie électrique, RAM, capacité de stockage persistant) et d’adaptation aux architectures matérielles souvent très spécialisées de ces calculateurs. Préserver la cohérence de traitements effectués en mode déconnecté à partir de ces calculateurs nécessite également la définition de protocoles sophistiqués de réconciliation de copies. La notion même de cohérence doit être revue car les propriétés transactionnelles ACID peuvent difficilement être assurées dans un contexte ou clients et serveurs sont potentiellement mobiles et susceptibles de se déconnecter. Enfin, nombre d’utilisateurs mobiles et d’entreprises ont recours à des hébergeurs de données sur l’Internet (Database Service Provider) afin d’augmenter la disponibilité de leurs données. Se pose alors le problème de préserver la confidentialité des données mises en ligne face à des attaques de pirates aussi bien que face à des utilisations illicites de ces données par les hébergeurs.