Nos partenaires

CNRS

Rechercher





Accueil du site > Français > Axes stratégiques > Masses de données et calcul > Séminaires > Archives

Journée de l’axe stratégique "Masse de données et calcul" de l’IRIT

18 octobre 2012 - auditorium Jacques Herbrand - IRIT

Cette journée est destinée à faire connaître des travaux de l’IRIT auprès d’entreprise et laboratoires ayant à gérer des gros volumes de données complexes, ou des traitements sur ces données. Et inversement, nous souhaitons rencontrer des "producteurs de données" et connaître leurs besoins en vue d’éventuelles collaborations. Un temps de table ronde permettra à ceux qui n’ont pas un exposé prévu de présenter leurs données et leurs besoins en la matière.

 

Résumés des interventions

Esther Pacitti, Patrick Valduriez (INRIA and LIRMM, University of Montpellier)

Zenith : a hybrid P2P/cloud for Big Scientific Data

Big data (i.e. data sets that grow so large that they become awkward to deal with) are creating major problems for computational science in terms of data capture, storage, search, sharing, analytics and visualizing. But size is only one dimension of the problems. Other dimensions include velocity, complexity and heterogeneity. To address these problems in the Zenith team, we adopt a hybrid P2P/cloud architecture. P2P naturally supports the collaborative nature of scientific applications, with autonomy and decentralized control. Peers can be the participants or organizations involved in collaboration and may share data and applications while keeping full control over some of their data (a major requirement for our application partners). But for very-large scale data analysis or very large workflow activities, cloud computing is appropriate as it can provide virtually infinite computing, storage and networking resources. Such hybrid architecture also enables the clean integration of the users’ own computational resources with different clouds.

Transparents


Richard Fournier (Laplace)

Archivage de spectres haute résolution : applications en astrophysique, climatologie et sciences pour l’ingénieur

De très gros projets de spectroscopie moléculaire se sont structurés internationalement dans les dernières décennies (ex HITRAN) pour permettre à des physiciens, dans des champs applicatifs très divers, de disposer de "tous" les ingrédients nécessaires à la construction des spectres d’absorption de mélange de gaz à haute résolution. On entend par haute résolution le fait que les raies d’absorption impliquées (de l’ordre du million pour chaque spectre) sont parfaitement résolues. Une énorme difficulté pratique est liée aux fait que des ingrédients manquent et que chaque équipe comble les manques grâce à l’expérience dont elle dispose. Il devient alors très difficile voire impossible de reproduire les résultats publiés. Le LAPLACE, RAPSODEE, le LMD et le LAB tentent aujourd’hui de structurer cette pratique, d’une part en mettant à disposition des spectres de référence pour tous les travaux méthodologiques nécessitant des intercomparaisons rigoureuses, et d’autre part en réfléchissant aux moyens nécessaires à la mise en oeuvre d’une plateforme d’archivage (upload/download) ouverte à l’ensemble des équipes de recherche et industriels concernés.


Franck Ravat, Olivier Teste, Gilles Zurfluh (IRIT - SIG)

Entreposage de Masses de Données

L’entreposage des données a pour ambition d’intégrer l’ensemble de ces données afin de les rendre exploitable pour alimenter les processus de prise de décisions. Le volume, mais également la complexité de ces masses de données produites aujourd’hui remettent en cause les approches classiques dans le développement des Systèmes d’Information Décisionnels. Des masses complètes d’informations produites sont aujourd’hui, de fait, hors de portées des entrepôts. L’objectif de cette présentation est de montrer quelques contributions de l’équipe SIG dans l’entreposage de ces masses de données.


S. Déjean (IMT) & J. Mothe (IRIT - SIG)

Visualisation de (résultats de) classification (Visual clustering) : quelques méthodes et applications

Le partitionnement de données (cluster analysis) est une méthode fondamentale en exploration de données afin de présenter des vues globales de gros volumes de données. Le partitionnement de données permet la réduction de dimension par la découverte de groupes d’objets ou éléments similaires. Les méthodes de visualisation associées permettent une exploration interactive de ces groupes. Nous aborderons dans cet exposé trois cas d’étude pour illustrer l’analyse de classification et la visualisation interactive. Le premier cas d’étude est lié au domaine de la recherche d’information (RI) et illustre le cas des données multidimensionnelles dans lequel les objets à analyser sont représentés par des caractéristiques ou variables. L’évaluation en RI utilise de nombreuses mesures. Le partitionnement de données est ici utilisé pour réduire le nombre de mesures utiles pour comparer différents moteurs de recherche. Le second cas d’étude considère des réseaux dans lesquels les données à analyser sont représentés sous forme de matrice d’adjacence. Les données que nous avons choisies sont obtenues à partir de publications ; le partitionnement de données est utilisé pour analyser des réseaux de collaboration. Le dernier cas d’étude s’intéresse à la classification de courbes et s’applique à des séries temporelles. Le cas d’étude choisi correspond à des séries temporelles d’expression de gènes.


Hervé Luga (IRIT - Vortex)

SVC : SecureVirtualCloud

Ce projet a pour vocation de créer une infrastructure virtuelle en environnement cloud qui permette de garantir un maximum de sécurité d’exécution et de confidentialité des données hébergées. Cette présentation présentera les champs d’intervention des différents partenaires du projet et mettra en exergue les apports des recherches menées au sein des équipes IRIT impliquées. Il s’agit, pour l’équipe VORTEX, d’adapter ses compétences en simulation au traitement comportemental de remontées de sondes situées dans l’infrastructure afin de déclencher des alertes de sécurité. L’équipe SEPIA se focalise sur l’aspect distribution et confidentialité des données en créant un filesystem distribué. Ce projet, mené par la société iTrust, a été labellisé dans le cadre des investissements d’avenir lors de l’appel e-cloud n°2.


Tim Van de Cruys (IRIT - MELODI)

La similarité distributionnelle : calculer la signification des mots à grande échelle

La similarité distributionnelle envisage de calculer la similarité sémantique entre des mots par rapport aux contextes dans lesquels les mots apparaissent. Ces contextes sont extraits automatiquement de grands volumes de texte, ce qui amène à un grand volume de données et des calculs considérables. Dans cette présentation, on examine les différents algorithmes utilisés pour calculer la similarité sémantique de manière efficace. Nous examinons particulièrement la réduction de la dimensionnalité, qui permet de réduire un grand nombre de dimensions qui se chevauchent à un nombre limité de dimensions sémantiques. Finalement, nous regardons brièvement quelques applications utilisant la similarité distributionnelle à grande échelle.