Nos partenaires

CNRS

Rechercher





Accueil du site > Français > Thèmes de recherche > Thème 2 - Indexation et recherche d’informations > Equipe PYRAMIDE

Equipe PYRAMIDE

Optimisation dynamique de requêtes réparties à grande échelle
Dynamic Query Optimization in Large-scale Distributed Environments
Responsable : Pr. Abdelkader Hameurlain

 

Actuellement, la production des grandes masses de données est issue de différentes sources (e.g. observations scientifiques, simulations, capteurs, réseaux sociaux, finances). Ces masses de données, souvent référencées par Big Data et caractérisées par les 4Vs (Volume, Variety, Velocity, Value), sont distribuées à grande échelle, hétérogènes, et produites de façon continue. La gestion de ces grandes masses de données pose de nouveaux problèmes et présente un réel défi : modélisation, stockage, traitement, optimisation, modèles de coûts, réplication, confidentialité de données, services de monitoring .... Dans des environnements parallèle et réparti à grande échelle (Cluster, Grid, Cloud), l’équipe Pyramide s’attaque aux principaux problèmes de traitement et d’optimisation de requêtes faisant références à des grands volumes de données (correspondant au premier Big V : Volume) et distribuées à grande échelle.

Pour gérer des grands volumes de données deux classes de systèmes peuvent être utilisées : les systèmes de gestions de bases de données SGBD parallèles et les systèmes clouds (e.g. Hadoop MapReduce, HDFS). Les SGBD parallèles (début des années 1990) ont eu un grand succès dans le domaine de la recherche et de l’industrie. Ils ont permis de gérer des applications ayant des objectifs de hautes performances (e.g. temps de réponse) et de disponibilité des ressources. Cependant, il est connu que ces systèmes sont très couteux et exigent un haut niveau d’expertise afin de les utiliser et les administrer efficacement. Quant aux systèmes clouds, ceux-ci permettent à une entreprise de réduire ses coûts en termes d’infrastructures soit par l’acquisition de serveurs bas coûts, soit par l’exploitation du modèle de payement de services (IaaS, PaaS, SaaS) à la demande (pay-per-use). Les clouds publics fournissent des ressources et des services à la demande en tirant profit de la scalabilité et de l’élasticité. Cependant, le paradigme de l’élasticité soulève un nouveau défi relatif à la conception de nouveaux modèles d’allocation de ressources performants et rentables. De plus, par rapport à l’accroissement quotidien des volumes de données, les systèmes clouds devraient fournir des mécanismes de réplication assurant des hautes performances et la disponibilité des ressources (e.g. sources de données). Ainsi, on peut synthétiser les principales caractéristiques des systèmes clouds publics : (i) les infrastructures traditionnelles sont remplacées par des clusters bas coûts, (ii) les utilisateurs deviennent des locataires (multi-tenant), (iii) l’élasticité et le payement à l’utilisation (pay-per-use) : les services sont fournis à la demande des locataires (clients) et facturés en fonction des ressources consommées, et (iv) l’isolation de performances (une QdS minimale devrait être garantie pour les différents locataires).

Plus précisément, les travaux de recherche de l’équipe Pyramide sont centrés sur la conception et le développement des nouveaux modèles d’allocation élastique des ressources pour l’optimisation dynamique de requêtes, tout en exploitant au maximum les résultats fondamentaux obtenus dans les systèmes de bases de données parallèles et réparties, notamment les aspects relatifs aux types de parallélisme (i.e. parallélismes intra-opération, indépendant et pipepline) et la minimisation des coûts de communication inter-opération.

Notre approche est basée sur la recherche du meilleur compromis entre l’efficacité (satisfaction des locataires par rapport à la QdS) et la rentabilité (des fournisseurs d’infrastructures et de services IaaS/SaaS, et le respect de SLA (Service Level Agreement)). L’originalité de ces nouveaux modèles d’allocation réside dans (i) l’introduction de la dimension « modèle économique » dans la fonction objective, (ii) l’exploitation efficace des formes de parallélisme (i.e. partitionné, dépendant (pipeline), indépendant), et (iii) la décentralisation du contrôle pour assurer le passage à l’échelle (scalabilité) par l’intégration d’une politique de migration proactive à base d’agents mobiles.

Les 2 principaux problèmes de recherche traités par l’équipe PYRAMIDE sont décrits ci-dessous :

  • Allocation des ressources élastique pour l’optimisation de requêtes
  • Isolation de performance
  • Cette rubrique ne contient aucun article.