Nos partenaires

CNRS

Rechercher





Accueil du site > Français > Axes stratégiques > Masses de données et calcul > Séminaires > Archives

Résumé des interventions

Méga-données : Questions de recherche en Midi-Pyrénées

Maths & Stat pour les Mégadonnées en Midi Pyrénées

Philippe BESSE

(INSA/IMT)

Les Big Data ou maintenant les Mégadonnées (Journal Officiel du 22/08/2014) font le buzz depuis près de 2 ans alors que cette appellation recouvre des réalités très différentes, voire confuses, selon les origines des données, les besoins et les objectifs poursuivis. Cet exposé ne vise pas à l’exhaustivité mais se propose de cibler d’une part, les aspects analyse / valorisation des données (big data analytics) et d’autre part, des situations concrètes qui ont été soumises à l’équipe ESP de l’IMT dans le cadre de contrats, thèses CIFRE, projet ou stages de fin d’étude. L’objectif, à travers ces exemples, est de mettre en évidence des besoins méthodologiques et techniques nécessaires à la bonne réalisation de ces projets. Nous mettrons plus particulièrement l’accent sur les sources de données industrielles qui soulignent mieux la nécessité de collaborations étroites entre Informatique, Mathématique et Statistique afin de satisfaire aux contraintes fortes imposées par les passages à l’échelle (volume, variété, vélocité) des caractéristiques de ces données.

Big data et sciences du Vivant : l’exemple du séquençage haut débit

C. GASPIN

, C. Hoede, C. Klopp, D. Laborie, J. Mariette, C. Noirot, MS. Trotard

INRA - MIAT - Plate-forme Bioinformatique GenoToul

Les progrès fulgurants réalisés ces dernières années dans les technologies d’acquisition de données sur le Vivant ont permis des avancées remarquables dans de nombreux domaines. L’évolution la plus spectaculaire est très certainement celle apportée dans le domaine du séquençage à haut débit où plusieurs ordres de grandeur ont été gagnés dans le rapport production/coût. Cette évolution extrêmement rapide a généré ces dernières années une démocratisation dans la capacité des laboratoires de biologie à s’approprier ces technologies et une « fracture » dans la capacité de ces mêmes laboratoires et des entreprises privées à prendre en charge l’exploitation des données. Dans ce contexte, le regroupement de compétences autour d’une infrastructure opérationnelle dédiée à l’exploitation des données à grande échelle est stratégique pour répondre efficacement au nombre et à la diversité des demandes d’accompagnement des programmes de biologie.

Nous présenterons les axes scientifiques et technologiques de la plate-forme (PF) bioinformatique GenoToul, qui ont vocation à développer et/ou mettre en oeuvre des compétences et des ressources adaptées aux besoins de l’analyse à grande échelle des données du Vivant pour un accompagnement au meilleur niveau des programmes scientifiques de biologie et de bioinformatique. Pour répondre à ces objectifs scientifiques, les activités de l’équipe s’organisent autour des missions suivantes :

  • Mise à disposition d’équipements informatiques adaptés aux besoins de l’analyse à grande échelle des données du Vivant – Avec plus de 600 scientifiques disposant d’un compte utilisateur, la PF constitue une infrastructure ouverte proposant un niveau de ressources informatiques et bioinformatiques performant sur le territoire national.
  • Mise à disposition de ressources généralistes et spécifiques – A côté des équipements, la PF maintient les ressources logicielles et les banques de données indispensables aux analyses des multiples sources de données disponibles sur le Vivant. Plus de 250 logiciels sont installés et accessibles aux utilisateurs. Plus de 100 banques sont régulièrement mises à jour.
  • Hébergement de projets – 38 machines virtuelles sont aujourd’hui dédiées à l’hébergement de projets sous contrat d’accueil, permettant une plus grande efficacité dans la continuité de service, la gestion du parc matériel, la consommation énergétique et la mutualisation des investissements.
  • Accompagnement des programmes de biologie (plus de 30 projets ouverts/an) – Depuis 2007, plus d’une vingtaine de publications sont issues de cet accompagnement réalisé dans cadre de collaborations régionales et nationales avec nos collègues biologistes.
  • Développement bioinformatique – Depuis 2009, l’équipe s’investit dans le développement d’outils innovants. Parmi ceux-ci, NG6 [1] (collaboration avec la PF de séquençage GeT) et RNAbrowse [2] (collaboration avec l’équipe Sigenae), facilitent les interactions avec les biologistes. JVenn [3] permet d’accompagner la valorisation des données. RNAspace [4], développé en collaboration avec plusieurs équipes en région et au national, valorise les développements méthodologiques issus des équipes de recherche. Cette activité se développe aujourd’hui dans le cadre de partenariats privilégiés, de collaborations avec d’autres PF ou infrastructures nationales via des projets soutenus par la Région et les Investissement d’avenir.
  • Cycles d’apprentissage – Depuis 2007, le catalogue des formations dispensées a évolué et compte actuellement 5 formations différentes qui sont produites pour des utilisateurs avertis (ligne de commande) ou sous l’environnement Galaxy.

Références

[1] Bardou P, Mariette J, Escudié F, Djemiel C and Klopp C. jvenn : an interactive Venn diagram viewer. BMC Bioinformatics 2014, 15:293 doi:10.1186/1471-2105-15-293.

[2] Mariette J, Noirot C, Nabihoudine I, Bardou P, Hoede C, Djari A, Cabau C, Klopp C. (2014) RNAbrowse : RNA-Seq De Novo Assembly Results Browser. PLoS ONE 9(5) : e96821.

[3] Mariette J, Escudie F, Allias N, Salin G, Noirot C, Thomas S, Klopp C. NG6 : Integrated next generation sequencing storage and processing environment. BMC Genomics, 2012 13:462.

[4] Cros MJ, de Monte A, Mariette J, Bardou P, Grenier-Boley B, Gautheret D, Touzet H, and Gaspin C , RNAspace.org : an integrated environment for the prediction, annotation and analysis of ncRNA. RNA 2011 17 (11)

Data Management Systems : Evolution and Challenges

Abdelkader HAMEURLAIN

(IRIT, eq. Pyramide)

The purpose of this talk is to provide a comprehensive state of the art concerning the evolution of data management approaches and systems. In the landscape of database management systems, data analysis systems (OLAP) and transaction processing systems (OLTP) are separately managed. The reasons for this dichotomy is that both systems have very different functionalities, characteristics and requirements. My talk will focus on the first class of OLAP systems. In this perspective, mainly, data management based on parallel and cloud (e.g. MapReduce) systems are overviewed, analyzed and compared by relying on meeting software requirements (e.g. data independence, software reuse), high performance, performance isolation, availability, scalability, and elasticity. With respect to proposed solutions, we try to learn some lessons and point out some open issues that should be tackled to ensure the viability of the next generation of large-scale data management systems.

Key words : Data Management, Query Processing and Optimization, Parallel Relational Database Systems, Cloud Systems, MapReduce, Large-scale, Scalability, Elasticity.


Exploration de grandes quantités de données à l’aide de techniques basées pixels

Christophe HURTER

(ENAC)

Notre société entre dans l’ère des données dont le volume ne cesse de croître et avec des attendes toujours plus importantes quant à leur exploitation. A titre d’exemple, de nombreux projets OpenData permettent de télécharger gratuitement d’importantes quantités de données pour les exploiter. D’autres services monnaient les données au travers de portails web.

L’analyse de ces grandes quantités de données complexes est essentielle pour en extraire de l’information et créer de la valeur ajoutée, mais cette tâche est difficile. Dans de nombreux cas, il est impossible de traiter les données de par leur grande taille (puissance de calcul insuffisante) et par leur volatilité, le temps de calcul ou d’affichage étant trop long, le résultat de l’analyse ne correspond plus aux données qui ont eu le temps d’évoluer. Le problème est double avec non-seulement l’affichage des données mais aussi leur manipulation. Ceci est particulièrement vrai avec les données dites temporelles comme le mouvement d’avions, de personnes. L’analyse et la compréhension des données liées au temps posent des problèmes non triviaux dans le domaine de l’InfoVis. Tout d’abord, ces jeux de données sont, par définition, plus importants que des jeux de données non évolutifs. Ceci souligne l’importance d’utiliser des algorithmes de visualisation et de manipulation rapides. Deuxièmement, alors que la visualisation de données statiques propose de nombreuses solutions de représentation, la recherche actuelle en visualisation ne propose pas de solution optimale pour afficher efficacement les évolutions des données.

Mes travaux de recherche utilisent l’interaction et la manipulation de données pour résoudre les challenges que soulève l’extraction d’informations dans de grandes quantités de données. Les limitations en termes de capacité de stockage ayant évoluées, nous pouvons nous appuyer sur l’utilisation de la mémoire comme un outil pour résoudre des problèmes de calcul. De plus les cartes graphiques sont aujourd’hui exploitées pour leur puissance de calcul parallèle (technique GPGPU), particulièrement adaptée au traitement niveau pixel. Durant cette présentation, je vais détailler mon approche avec des démos pour explorer différents types de données : trajectoires d’avions, scan 3D, images, data cube.

Gestion de données dans les Observatoires Virtuels

Thierry LOUGE

(ITAV, Tarbes)

Le volume de données astronomiques collecté par les différents instruments en exploitation présente une croissance exponentielle. Ces données sont de plus en plus mises à disposition des chercheurs par le biais du concept de « l’observatoire virtuel ». Un observatoire virtuel (OV) est une collection d’archives de données interactives et d’outils logiciels qui utilisent l’Internet pour bâtir un environnement de recherche scientifique dans lequel les programmes de recherche en astronomie pourront être conduits. Les Observatoires Virtuels ouvrent de nouvelles voies d’exploration des données astronomiques issues d’instruments spatiaux, basés au sol, ou de simulations numériques, et ont pour objectif de gérer de manière transparente l’accès à de grandes quantités de données hétérogènes localisées de par le monde. Bien que leur intérêt ne soit plus à démontrer, leur utilisation souffre encore de problèmes :

  • de localisation et d’exploitation des services répondant à des critères précis
  • de sélection des outils logiciels adaptés aux traitements des données
  • d’interopérabilité due à la sémantique interdisant l’exploitation convenable des informations fournies et à la multiplicité des implémentations des modèles de données (par exemple dans différents domaines de longueurs d’onde, ou selon des résultats observationnels ou simulés, etc.) ce qui rend complexe leur comparaison
  • d’automatisation d’élaboration de chaînes de traitements en fonction des résultats recherchés et des services disponibles pour y parvenir
  • de traçabilité des traitements opérés sur les données

Aujourd’hui les automatisations proposées dans l’utilisation des observatoires virtuels concernent des processus déjà connus, pour lesquels on sait à priori quels services contacter sur quels observatoires virtuels et quels outils de traitement appliquer aux données qu’ils fournissent.

C’est un enjeu majeur que les observatoires virtuels puissent dynamiquement proposer automatiquement et de façon transparente pour l’utilisateur, des processus de traitement adaptés, identifiés en fonction des données devant être étudiées, orchestrés autour de services sélectionnées sémantiquement. Aussi, l’objectif de ce travail de thèse est de concevoir une architecture orientée services comme unique point d’entrée pour l’utilisation des services inscrits dans les observatoires virtuels répartis de par le monde.

Un regard sur l’exploitation des données de vols recueillies par les compagnies aériennes.

Nicolas MAILLE

(ONERA)

Les avions commerciaux exploités par les compagnies aériennes sont équipés d’enregistreurs de paramètres de vols (Flight Data Recorder) qui stockent l’évolution de plusieurs centaines de paramètres pendant toute la durée du vol. Ces données sont déchargées régulièrement, analysées et stockées dans de grandes bases de données. Leur analyse vise d’une part la gestion de la sécurité des vols et d’autre part le suivi de certaines performances. Les traitements effectués reposent principalement sur la définition d’évènements correspondant à des dépassements de seuils à des points clé du vol.

Dans le cadre d’un accord avec une compagnie aérienne, la NASA et l’ONERA ont accès à ces données pour travailler sur de nouvelles méthodes d’analyse de ces données qui pourraient permettre de mieux cerner les enjeux sécuritaires rencontrés pendant les opérations. L’ONERA se concentre sur l’utilisation de modèles d’activités pour guider l’analyse et la NASA sur l’utilisation d’outils issus du Data Mining.

Dans le cadre de cet exposé, il sera présenté la nature et le volume de données recueillies, les types d’analyses réalisées par la compagnie aérienne et les nouvelles méthodes d’analyses proposées par le projet.

Advanced techniques for structural electron microscopy : towards a dynamic structure resolution of human pre-ribosomal particles

Natacha Larburu(1), Christian Montellese(2), Alain Kamgoue(1), Marie-Françoise O’Donohue(1), Ulrike Kutay(2), Pierre-Emmanuel Gleizes(1) and

Célia Plisson-Chastang(1)

(1) Laboratoire de Biologie Moléculaire Eucaryote, UMR CNRS 5099-Université Paul Sabatier Toulouse III, Bâtiment IBCG, 118 Route de Narbonne, 31062 Toulouse Cedex,France. (2) Institute of Biochemistry, ETH Zurich, CH-8093 Zurich, Switzerland .

Cryo-electron microscopy is a very powerful method that allows determination of the 3D structure of very large biological complexes. Three-dimensional reconstructions using single particle analysis methods consist in determining the relative orientations of the particles of interest towards each other. Datasets of tens of thousands of particle images are typically used, and to reach an optimal solution an iterative procedure of alignment and classification is used, whereby strong image averages produced by classification are used as reference images for a subsequent alignment of the whole data set. These “classical” single particles methods are, in general, reliant on the sample being homogeneous. Obtention of quasi-atomic resolution for sample containing structural variability can be prevented by the use of those canonical methods, since they are based on averaging or summing similar views of the particle. Images analysis techniques dealing with conformational heterogeneity have recently been developed. Those new program uses bayesian approaches to describe maximum likelihood of orientation of each imaged particle, taking into account structural flexibility and, among other, signal-to-noise ratio variability within the acquired dataset. We are currently applying these bayesian approaches to understand structural rearrangements occuring during the maturation of the human 40S ribosomal subunit. We will present those approaches and their computational strength, costs and constraints.

Données trajectoires dans le domaine du transport aérien : une approche fonctionnelle

Stéphane PUECHMOREL

(ENAC)

Le domaine du transport aérien génère de grandes quantités de données : statistiques aéroportuaires, de trafic, positions des avions durant le vol. Dans de nombreux cas, les informations collectées ne sont que peu exploitées, le plus souvent en raison de la difficulté d’en extraire les paramètres les plus pertinents. Pour le cas des trajectoires, stockées sous la forme de listes de positions datées, s’ajoute la nécessité de prendre en compte l’aspect temporel. De surcroît, il existe une grande redondance interne des données, les chemins suivis par les avions étant constitués de segments de droites et d’arcs de cercles.

Dans cet exposé, nous présenterons deux approches possibles afin de traiter les informations liées aux trajectoires :

  • La réduction de dimension par analyse en composantes principales, appliquée par la Mitre aux états unis sur des données d’approche.
  • La représentation fonctionnelle dans laquelle une base d’applications sert à décomposer les trajectoires observées.

La seconde approche s’est révélée fructueuse sur des problèmes de prédiction ou de classification et semble bien adaptée aux données. Trois exemples seront présentés : l’utilisation de la régression fonctionnelle pour prédire les positions futures d’un avion, la classification de trajectoires et la construction d’un modèle réduit du comportement d’un aéronef en montée. La question de la définition d’une métrique de similarité entre courbes qui sous-tend toute l’approche fonctionnelle sera brièvement évoquée.