Posts tagged "données"

Toward a Data Lake

Context Presentation

neOCampus is a large operation with different kinds of projects and actors. Started in 2013, its goal is to improve the university campus user’s everyday life through data analysis for people, fluid consummation reduction, reduce building environmental footprint, etc.… Overall, it tends to make the campus smarter. All those projects have one common point: data. Including images, sensor logs, administrative data, configurations, we can find every kind of data and each must be stored somewhere.

This project is centered around this problem with a data management system architecture which is the data lake.The conception of this kind of solution must include handling every kind of data and making it possible to follow the life of a data from the input to the usage in a project. It does not only have to store every kind of data, it is needed to know what is stored, where and in the proper format to use it in the easiest way. When a new data has arrived, the system will automatically rawly store it, find the more valuable format, extract information from this data and make this knowledge available for any purpose.

datalake - Vincent-Nam Dang


Data Lake, Data Driven Project, Big Data, Data Management, Data Analysis

Scientific goal

•    To develop a datalake architecture to change the architecture of the data management system in neOCampus.

Contacts, franç,

Stream Analysis and Filtering for Reliability and Post-processing of Sensor Big Data

Context Presentation

Anomaly detection in real fluid distribution applications is a difficult task, especially when we seek to accurately detect different types of anomalies and possible sensor failures. Our case study is based on a real context: sensor data from the SGE (Rangueil campus management and operation service in Toulouse).

We propose an automatic pattern-based method for anomaly detection in time-series called Composition-based Decision Tree (CDT). We use a modified decision tree and Bayesian optimization to avoid manual tuning of hyper-parameters. Our method uses sequences of patterns to identify remarkable points corresponding to multiple anomalies. The compositions of patterns existing into time-series are learned through an internally generated decision tree and then simplified using Boolean algebra to produce intelligible rules.

Our approach automatically generates decision rules for anomaly detection. All our experiments were carried out on real and synthetic data. We show that our method is precise for classifying anomalies compared to other methods. It also generates rules that can be interpreted and understood by experts and analysts, who they can adjust and modify.

Image_IBK - ines ben kraiem


Anomaly detection, Time-series, Machine learning, Classification rules

Scientific goals

•    To detect different types of anomalies observed in real deployment

•    To generate interpretable rules for anomaly detection

•    To use learning methods for anomaly detection on static and continuous data


Interaction Techniques for Situated Data through a Physical Model

Context Presentation

Over the last decades, the amount of data has increased to 29000 Go produced each second. Understanding the data requires tools to transform these numbers, texts and images into concrete representations. The field of data visualization aims to produce data representation to visualize and analyze abstract data. Building, people or vehicles produce a lot of data collected by many sensors. These specific data are related to a physical location (e.g. number of people in a room is related to the room, humidity in a floor is related to the floor, etc.) Bring and display them close from their physical context allow people to make a better representation of the data (Embedded Data Representations, Willet et al. , 2017).

In this project we aim to design interaction techniques to navigate and manipulate the data close to a physical referent. The main goal is to develop a full interactive physical model of the campus endowed with situated data.

3d flat retouche5 - Cabric Florent(1)


Interaction Techniques, Situated Data, Phygital Model, Human Computer Interaction

Scientific goals

Design and evaluation interaction techniques to explore a digital modeldesign and evaluate interaction techniques with situated databuild a physical model of the campus endowed with situated data and interactive capabilities


Conception of Timeline Component for Timed Data Analyzis

Context Presentation

SandFox project is a collaborative project between IRIT and Berger-Levrault company. This project is part of neOCampus initiative. The goal is to find best ways to represent and interact with data. These data are dated, we would like to be able to compare them over different periods.

To do that, we were doing research concerning different existing models of interaction with data. We were looking among those that most closely matched expectations of our collaborators. From these models, we were going to the conception step of low and medium fidelity prototypes. For the selected model, we were choosing a circular representation. This representation allows more visibility to compare several periods of time. We were also able to produce a low fidelity prototype (paper prototype) and a medium fidelity prototype in progress (make on adobe Xd).

In conclusion, we were founding a representation that allows a clear view of data but lacks interactives elements to change building data for another building or interaction modalities which have not yet been clearly defined.

sandfox_timeline_clastres - Flych



Human-Computer Interaction, SandFox, data, interaction, neOCampus, Data Visualization, Data Interaction

Scientific goals

Facilitate the interaction of temporal data from different sources and/or different time periods.


Stream Analysis and Filtering for Reliability and Post-processing of Sensor Big data

Context Presentation

Anomaly detection in real fluid distribution applications is a difficult task, especially, when we seek to accurately detect different types of anomalies and possible sensor failures. Resolving this problem is increasingly important in building management and supervision applications for analysis and supervision. Our case study is based on a real context: sensor data from the SGE (Rangueil campus management and operation service in Toulouse).

We propose CoRP” Composition of Remarkable Points” a configurable approach based on pattern modelling, for the simultaneous detection of multiple anomalies. CoRP evaluates a set of patterns that are defined by users, in order to tag the remarkable points using labels, then detects among them the anomalies by composition of labels. CoRP is evaluated on real datasets of SGE and on state of the art datasets and is compared to classical approaches.


Figure 1: « Anomaly Detection in Sensor Networks »

Scientific Goals

- Detect different types of anomalies observed in real deployment

- Improve the supervision of sensor networks

- Use learning methods for anomaly detection on static and continuous data



neOCampus, Sensor Data, Univariate Time Series, Anomaly Detection, Pattern-based Method


Information modelling for the development of sustainable construction (MINDOC)

Context Presentation

In previous decades, environmental impact control through lifecycle analysis has become a hot topic in various fields. In some countries, such as France, the key figures for energy show that the building sector alone consumes around 45% of the energy produced each year. From this last observation emerged the idea to improve the methods hitherto employed in this field, in particular those related to the exchange of information between the various stakeholders involved throughout the lifecycle of a building. Information is particularly crucial for conducting various studies around the building; for instance, the assessment of the environmental impact of the latter. Concerning information exchange issues, the creation of open standards such as Industry Foundation Classes (IFC) or CityGML, but also semantic web technologies have been widely used to try to overcome it with some success elsewhere. Another striking issue is the heterogeneity between construction product databases. What would be particularly interesting is to know the environmental impact of a building at early phases of its lifecycle. However, there are a number of problems that still do not have solutions. This includes associating Building Information Modelling (BIM) and semantic web technologies with environmental databases to increase the flexibility needed to assess the building's environmental impact throughout its lifecycle.


Figure 1: MINDOC methodology process

Scientific Goals

- Study how information exchange is made within experts during a building lifecycle in order to figure out interoperability gaps ;

- Fill some of the encountered gaps by mean of formalization of building information.

- Combined with the formalization of environmental data on construction products, the latter will enable the introduction of product data at an early stages of the building lifecycle.


Knowledge Modeling & Semantic Reasoning - Merging Ontologies - Decision Support - Building Information Modeling (BIM) - Environmental Databases.


Hybrid IoT: a Multi-Agent System for Persistent Data Accessibility in Smart Cities

Présentation du contexte

La réalité d'un campus intelligent ou plus généralement d'une ville intelligente passe par une observation régulière de l'environnement par des capteurs ad-hoc, afin d’agir dans l’environnement avec des dispositifs automatiques pour améliorer le bien-être des usagers. Ces capteurs permettent d’obtenir une connaissance des activités humaines et des conditions dans lesquelles ces activités sont menées, mais le déploiement d'un grand nombre de capteurs peut être coûteux. Les coûts sont principalement liés à l'installation, la maintenance et les infrastructures de capteurs dans les bâtiments existants. Pour ces raisons, l’objectif de cette thèse vise à réduire ces coûts en utilisant quotidiennement des milliers d’informations partielles et intermittentes provenant de smartphones des usagers du campus de l’Université Toulouse III Paul Sabatier. Ces traitements sont fondés sur une technologie d’Intelligence Artificielle par systèmes multi-agents coopératifs.



Figure 1 : «On utilise les informations des dispositifs intermittents et mobiles pour fournir des estimations précises»

Objectifs scientifiques

- Apprendre à partir de données brutes, imprécises et intermittentes sans feedback.

- Fournir les informations en continu, même en l’absence de données de smartphone des usagers.

- Utiliser une approche hybride de l’Internet des objets qui mixe capteurs réels et capteurs virtuels.

Mots clés

Systèmes multi-agents auto-adaptatifs, fusion de données, apprentissage, smart campus


Davide Andrea Guastella, Valérie Camps, Marie-Pierre Gleizes, {davide.guastella, camps, gleizes}

Interaction avec des Données Numériques Intégrées au Monde Physique : Application aux Maquettes d’Architecture

Les données sont aujourd’hui omniprésentes dans notre quotidien. Le projet neOCampus a pour but d’offrir de nouveaux services aux usagers d’un campus en exploitant des données de différentes natures (température, consommation, nombre de personnes, bruit, luminosité, etc.) et captées en continu dans toutes les salles du campus de l’Université. Toutefois une telle quantité de données est, pour l’utilisateur novice, complexe à analyser, comprendre et manipuler. Il est donc nécessaire de concevoir, d’implémenter et d’évaluer de nouvelles méthodes de visualisation et d’interaction avec ces données.

Ce projet explore l’apport potentiel de l’utilisation d’un support physique pour interagir avec ces données en entrée (contrôle et action de de l’utilisateur sur les données) et en sortie (rendu des données sur l’objet physique). En effet les données captées étant relatives à des bâtiments ou des dispositifs dans ces bâtiments, ancrer ces données dans un modèle physique représentant le lieu de collecte de la donnée doit permettre aux utilisateurs de mieux se projeter dans des données et donc de mieux les appréhender. On appelle cela la physicalisation interactive de données et l’on s’intéresse au développement de maquettes physiques interactives supports à l’exploration de données.


Figure 1 : Visualisation de données de consommation énergétique sur des maquettes physiques

Objectifs scientifiques

Les objectifs de ce projet sont :

- Concevoir et développer un processus de construction d’une maquette physique interactive.

- Concevoir et étudier des techniques d’interaction sur maquette physique.

- Établir un environnement interactif pour augmenter une maquette physique.




Exploration de données spatio-temporelles

Les données spatio-temporelles sont générées quotidiennement, que ce soit pour collecter la consommation énergétique d’un bâtiment ou tout simplement étudier la température des différentes salles de ce bâtiment. Face à des environnements de données aussi riches et complexes, il est important de définir ce qu’elles représentent. Ce type de données peut être décomposé en trois éléments clés : l’objet, qui est souvent l’entité clé, l’élément temporel, et le mouvement de cet objet dans l’espace à travers le temps. Les solutions explorées jusqu'ici pour manipuler ces données incluent généralement la souris 2D, les interfaces tangibles ou de l'interaction mid-air. Chacune d’entre elles présentent cependant des limitations ne permettant pas une manipulation optimale de ces données. Ainsi, il nous faut développer de nouveaux outils d’interactions pour faciliter l’exploration de ces données multidimensionnelles. Nous proposons donc une approche innovante couplant de l’interaction tangible, de la robotique et de la visualisation immersive pour faciliter ce processus.


Figure 1 : Visualisation de données spatio-temporelles sur un parcours passant par les différents laboratoires partenaires de neOCampus

Objectifs scientifiques

Les objectifs du stage sont :

- D’élaborer une preuve de concept permettant d’interagir avec des données spatio-temporelles en combinant le concept de cube spatio-temporel et de robots tangibles

- De concevoir et développer un support d’interaction dynamique facilitant l’exploration et l’interprétation des données spatio-temporelles



Refactorisation dynamique de mégadonnées pour l'optimisation des données de capteurs

Nous proposons un mécanisme qui permet de collecter et modéliser l'ensemble des données provenant des différents capteurs (température, humidité, luminosité, ...) disséminés sur le campus de l'université Paul Sabatier afin de faciliter l'exploitation, l'exploration et la visualisation des données. Ce mécanisme déverse les données dans une base MongoDB accessible via une API dédiée. Il permet d’intégrer des données hétérogènes de source et nature hétérogènes avec vélocité variable. De plus, notre mécanisme offre des facilités de transparence d’interrogation de données pour l’utilisateur. Les requêtes sont écrites à partir d’une connaissance minimale de la structure des données (un schéma existant). Le système de traitement de requêtes prend en compte automatiquement l’hétérogénéité structurelle des données réelles afin de retourner l’ensemble des résultats pertinents pour la requête même si le schéma des données est différent.


Figure 1 : « Cycle de vie des données de capteur neOCampus »

Objectifs scientifiques

Les objectifs de la thèse sont :

- Modélisation et exploration des données big data produites par les capteurs de neOCampus.

- Développement des nouveaux modèles, méthodes et outils pour la refactorisation et l’exploration des données hétérogènes. 

- Etude des problèmes liés à l’intégration de données au niveau intra et/ou inter-systèmes NoSQL.



Back to Top