Cette thèse a pour objectif d’apporter des solutions dynamiques pour la modélisation et l’exploration des données Big Data produites par des capteurs installés sur le campus de l’université Paul Sabatier dans le cadre du projet neOCampus. Les données générées par des capteurs de neOCampus possèdent les caractéristiques majeures des 4V (volume, variété, vélocité, véracité) inhérentes aux mégadonnées (« Big Data »). Le nombre de capteurs déployés en croissance constante produit un volume de données de plus en plus important. Les phénomènes mesurés sont multiples et de nature hétérogène: environnement (températures, luminosité, hydrométrie...), consommation de fluides (électricité,chauffage,...), capteurs d’états (position des ouvrants,...) et de présences (caméras, capteurs de passages,...). Ils engendrent une grande variété d’informations hétérogènes produites à des rythmes temporels de vélocité variable. Enfin, la véracité des données n’est pas toujours assurée ; des défauts de calibrage, des pannes sur les capteurs sont autant de causes à l’absence de données, ou pire, à la dégradation de la qualité des données brutes produites.
Objectifs scientifiques
L’objectif de la thèse est de développer de nouveaux modèles, méthodes et outils permettant la refactorisation et l’exploration des données hétérogènes produites par les capteurs de neOCampus. Si les systèmes NoSQL apportent des caractéristiques intéressantes au problème de stockage des mégadonnées, ces systèmes impliquent une dépendance entre le modèle de stockage et les traitements. Cet aspect est accentué dans des contextes où les traitements à réaliser (requêtes utilisateurs) ne sont pas connues lors de la production des données, et des contextes ou les besoins de traitement des utilisateurs varient dans le temps. Dans ce cadre, le but de la refactorisation est d’adapter (modifier) les différentes structures des données en fonction des traitements demandés. Nous allons étudier les problèmes de migration pyhsique d’une manière efficace des données stockées dans un système NoSQL distribué en clusters vers un autre système réputé mieux adapté aux traitements ciblés. Nous allons étudier aussi les problématiques dites intra-système NoSQL qui consiste à réorganiser automatiquement les données au sein du même système, avec ou sans duplication, de manière matérialisée ou virtualisée, tout en garantissant la cohérence des données. Actuellement, nous avons proposé un premier prototype intra-système dédié pour les systèmes NoSQL orientées documents qui gère des problèmes d’hétérogénéité structurelles. Avec ces mécanismes nous allons en particulier explorer la problématique de structuration de données tout en minimisant les coûts de traitements induits par les processus de traitements distribués « Map » / « Reduce ». Nous allons valider ces résultats scientifiques au travers de la réalisation d’un prototype logiciel servant de preuve de concept. Pour ce faire, nous allons employer des jeux de données synthétiques et des jeux de données réels produits par les capteurs de neOCampus.
Contacts
- Hamdi Ben Hamadou (IRIT) : hbenhama@irit.fr
- Olivier Teste (IRIT) : teste@irit.fr
- André Péninou (IRIT) : peninou@irit.fr
- Marie-Françoise Canut (IRIT) : canut@irit.fr