Invités de la conférence

Président d'honneur, conférenciers invités, tutoriels invités.

Président d'honneur

Fionn Murtagh - Royal Holloway, University of London

Towards a New Science of Big Data Analytics, based on the Geometry and the Topology of Complex, Hierarchic Systems

Résumé

My work is concerned with pattern recognition, knowledge discovery, computer learning and statistics. I address how geometry and topology can uncover and empower the semantics of data. In addition to the semantics of data that can be explored using Correspondence Analysis and related multivariate data analyses, hierarchy is a fundamental concept in this work. I address not only low dimensional projection for display purposes, but carry out search and pattern recognition, whenever useful, in very high dimensional spaces. High dimensional spaces present very different characteristics from low dimensions, I have shown that in a particular sense very high dimensional space becomes, as dimensionality increases, hierarchical. I have also shown how in hierarchy, and hence in an ultrametric topological mapping of information space, we track change or anomaly or rupture.

In this presentation, the first theme discussed is that of linear time hierarchical clustering with application to sky survey data in astronomy, and to chemo-informatics. The second theme discussed is computational text analysis. It is interesting to note that J.P. Benzécri's original motivation was in language and linguistics. In my text analysis work, I have taken the dictum of McKee (Story: Substance, Structure, Style and the Principles of Screenwriting, Methuen, 1999) that "text is the sensory surface of a work of art" and show just how this insight can be rendered in computational terms. This leads to demarcating, tracking, statistical modelling, visualizing, and pattern recognition of narrative. In an application to collaborative writing, I developed an interactive framework for critiquing, and assessing fit and appropriateness of content, on the basis of semantics, leading to books that were published as e-books, having been written by school children in a few days of collaborative class work. In many aspects of this work, hierarchy expresses both continuity and change in the textual narrative or in the narrative of chronological events.

Biographie

Fionn Murtagh is Professor of Computer Science in the University of London, at Royal Holloway (http://www.cs.rhul.ac.uk/home/fionn).   For the past 5 years he was directing Science Foundation Ireland's funding programmes across a wide area including semantic and sensor web, renewable energy, nanotechnology, and telecommunications.   In the past he has held Full Professor of Computer Science positions at Queen's University Belfast, and at the University of Ulster.   For 12 years he served in the Space Science Department of the European Space Agency, based at the European Southern Observatory, in Munich.   For many years he was an Adjunct Professor at Strasbourg Astronomical Observatory, Université de Strasbourg.   Extensive visiting positions were held at the Joint Research Centre, Ispra, Italy, and in the Department of Statistics, University of Washington.

Fionn Murtagh's degrees are in Mathematics and Engineering Science (BA, BAI), an MSc in Computer Science, all from Trinity College Dublin, a Doctorat de 3ème Cycle in Mathematical Statistics from Université P&M Curie, Paris 6, and an HDR in Pattern Recognition in Astronomy from (now) Université de Strasbourg.    Fionn has been President of the Classification Society (formerly the Classification Society of North America), and President of the British Classification Society.   He is an elected Member of the Royal Irish Academy, a Fellow of the International Association for Pattern Recognition, and a Fellow of the British Computer Society.

Fionn Murtagh is Editor-in-Chief of the Computer Journal, the flagship journal of the British Computer Society (published by Oxford University Press).   He is a member of the editorial boards of various journals including Pattern Recognition, Journal of Classification, and Neurocomputing.    He has published 6 research monographs, 125 journal papers, 135 other papers in book compilations and conference proceedings, and he has edited many books and journal special issues.   His Erdös number is 2.

Conférenciers invités

Rokia Missaoui - Université du Québec en Outaouais (UQO)

Analyse de réseaux sociaux par l'analyse formelle de concepts

Résumé

L'analyse formelle de concepts (AFC) est un formalisme de représentation et d'extraction de connaissance fondé sur les notions de concepts et de treillis de concepts (Galois).
L'AFC a été exploitée avec succès dans plusieurs domaines en informatique tels le génie logiciel, les bases et entrepôts de données, l'extraction et la gestion de la connaissance et dans plusieurs applications du monde réel comme la médecine, la psychologie, la linguistique et la sociologie.
Dans cette présentation, nous allons explorer le potentiel de l'AFC et de quelques extensions de cette théorie (ex. analyse triadique de concepts) dans l'analyse de réseaux sociaux en vue de découvrir des connaissances à partir de réseaux homogènes simples (ex. détection de communautés et d'individus influents à partir d'un réseau d'amis) ou même de réseaux hétérogènes (ex. extraction de règles d'association d'un réseau bibliographique).

Biographie

Madame Rokia Missaoui (cf. http://w3.uqo.ca/missaoui) a obtenu son Ph.D. en informatique en 1988 de l'université de Montréal. Elle est actuellement professeur titulaire au département d'informatique et d'ingénierie de l'université du Québec en Outaouais (UQO). Avant d'intégrer l'UQO en 2002, elle a été professeur pendant quinze ans à l'université du Québec à Montréal depuis 1987. Ses intérêts de recherche au sein du laboratoire LARIM qu'elle dirige depuis 2002 incluent l'optimisation de performances, la fouille et l'entreposage de données, l'analyse formelle de concepts, la recherche d'images selon le contenu, et l'analyse de réseaux sociaux. Elle a été impliquée dans plusieurs projets de recherche financés par des organismes subventionnaires (FQRNT, CRSNG, FCI, VRQ, AUCC), le gouvernement fédéral (ex. Patrimoine canadien et Environnement Canada) et quelques partenaires (Bell Canada, CAE Electronics, IQAFF, SMQ, CRIM, DMR). Elle a également agi comme conseillère scientifique pour l'Agence du Revenu du Canada pendant plus de dix ans. Elle anime régulièrement des séminaires en fouille et entreposage de données auprès d'entreprises québécoises.
Elle collabore avec quelques équipes de recherche en France, dont le LIMOS de l'université Blaise Pascal, le laboratoire ERIC de l'université Lumière Lyon 2, et le laboratoire d'informatique de l'université François Rabelais.

Florence d'Alché-Buc - INRIA-Saclay, LRI et IBISC, Université d'Evry

Inférence de réseaux biologiques : un défi pour la fouille de données structurées

Résumé

La réponse cellulaire d'un organisme vivant à un signal donné, hormone, stress ou médicament, met en jeu des mécanismes complexes d'interaction et de régulation entre les gènes, les ARN messagers, les protéines et d'autres éléments tels que les micro-ARNs. On parle de réseau d'interaction pour décrire l'ensemble des interactions possibles entre protéines et de réseau de régulation génique pour représenter un ensemble de régulations entre gènes. Identifier ces interactions et ces régulations ouvre la porte à une meilleure compréhension du vivant et permet d'envisager de mieux soigner par le biais du ciblage thérapeutique. Puisque les techniques expérimentales de mesure à grande échelle, récemment développées, fournissent des données d'observation de ces réseaux, ce problème d'identification de réseau, généralement appelé inférence de réseau en biologie des systèmes, s'inscrit dans le cadre général de la fouille de données et plus particulièrement de l'apprentissage artificiel. Voilà maintenant quelques années que cette problématique a été posée à notre communauté et durant lesquelles les échanges entre biologistes et informaticiens ont non seulement permis aux biologistes d'étoffer leurs boîtes à outils mais aussi aux informaticiens de concevoir de nouvelles méthodes de fouille de données.

En partant des deux problématiques distinctes que sont l'inférence de réseau d'interaction et l'inférence de réseau de régulation, je montrerai que ces deux tâches d'apprentissage posent, chacune de manière différente, la problématique de la prédiction de sorties structurées. L'inférence de réseau d'interaction entre protéines, vue comme un problème transductif de prédiction de liens, peut être résolue comme un problème d'apprentissage d'un noyau de sortie à partir d'un noyau d'entrée. L'inférence de réseau de régulation, impliquant la modélisation d'un système dynamique, peut être abordée par l'approximation parcimonieuse et structurée de fonctions à valeurs vectorielles. Je présenterai un ensemble de nouveaux outils de régression à sortie dans un espace de Hilbert, fondés sur des noyaux à valeur opérateur, qui fournissent d'excellents résultats en inférence de réseaux biologiques. Des expériences in silico sur des données artificielles, chez la levure du boulanger ou chez l'homme illustreront mes propos. En fin d'exposé, je tracerai quelques perspectives concernant les " nouveaux " défis dans le domaine de la bioinformatique et dans celui de la prédiction de sorties structurées.

Biographie

Florence d'Alché-Buc est professeur à l'Université d'Evry et effectue sa recherche au sein du laboratoire IBISC. Actuellement en délégation à l'INRIA-Saclay, elle visite les équipes TAO et Bioinformatique communes au LRI et à l'INRIA. Diplômée de Télécom Paris Tech (anciennement ENST), ella a soutenue sa thèse de doctorat à l'Université Paris Sud en 1993 sur l'apprentissage de règles de décision par modèles constructifs neuronaux. Après un passage aux Laboratoires d'Electronique Philips, elle est devenue maître de conférence à l'Université Pierre et Marie Curie en 1995. Elle a rejoint l'Université d'Evry en 2004 pour y créer et animer l'équipe Apprentissage, Modélisation et Intégration de données : application à la biologie de systèmes. Ancrées en apprentissage statistique, ses recherches portent essentiellement sur la prédiction de données structurées et la modélisation de systèmes dynamiques avec des outils à base de noyaux et une prédilection pour les applications en biologie des systèmes.

Stéphane Lamassé - Université Paris 1 Panthéon-Sorbonne - Lamop (laboratoire de médiévistique occidentale)
Julien Alerini - PIREH/Lamop

Comprendre et interpréter les données : enjeux et implantations d'un système de codage dans des gisements de données historiques

Résumé

L’accès croissant à une information pléthorique et le développement de gisements de données ambitieux posent aujourd’hui deux grands types de difficultés aux historiens.
Le premier consiste à mettre en relation des gisements qui ont été développés de manière indépendante. C’est par exemple le cas pour l’intégration d’un ensemble de bases de données prosopographiques développées entre 1980 et 2010 au Lamop, ou même dans le cadre d’un projet dont le seul lien est une problématique spatiale et temporelle (projet ANR-DFG, Euroscientia).
Le deuxième tient en la nature des données introduites dans ces différents systèmes : elles sont souvent hétérogènes, ambiguës, floues. Pour que le chercheur puisse se les approprier, les données doivent faire l’objet d’un véritable travail, afin de comprendre comment elles ont été obtenues, structurées. L’historien doit donc les évaluer et les valider s’il souhaite les mettre
en relation. Cette évaluation nécessitant, elle-même de pouvoir être commentée, partagée et critiquée par d’autres chercheurs.
Dans les deux cas, il est nécessaire de développer des outils d’appropriation, qui permettent d’entrer dans le réel historique contenu dans les stocks de données. C’est là la fonction du projet Histobase, un système permettant d’entrer dans la structuration des gisements, d’en évaluer l’information, d’ajouter des couches d’interprétation (qualification de l’information historique) de les évaluer et de partager les données « obtenues ». Chacune des analyses individuelles et collectives fait l’objet d’une mémorisation. Il faut pour cela laisser une place importante aux historiens en tant qu’expert en prêtant une attention particulière aux processus métiers qu’ils mettent en oeuvre.

Biographie

Stéphane Lamassé et Julien Alerini sont docteurs en histoire médiévale et moderne et enseignent à l’Université de Paris 1.
Ils sont, avec Alain Dallo, Benjamin Deruelle et Léo Dumont, membres de l’équipe de recherche de Jean-Philippe Genet sur les usages de l’informatique en histoire. Participant à plusieurs projets ils contribuent à mettre en relation des problématiques de recherches en informatique contemporaines avec des sujets de sciences humaines et sociales.

Tutoriels invités

Rokia Missaoui - Université du Québec en Outaouais (UQO)

Fouille dans les réseaux d’information hétérogènes

Résumé

Un réseau d'information hétérogène est un graphe orienté dans lequels les nœuds (entités) et les liens sont de divers types. On retrouve ce type de réseaux dans plusieurs domaines dont les réseaux sociaux comme Facebook, le commerce électronique comme Amazon, et les bases bibliographiques comme DBLP. Ce dernier type de réseau peut contenir les entités Publication, Auteur, Source (conférence, revue) et Mot-clé ainsi que des liens entre ces entités, y compris des relations récursives comme des citations d'articles.

L'objectif de ce tutoriel est de présenter les caractéristiques et la richesse de ces réseaux ainsi que l'intérêt à les exploiter pour extraire des motifs sémantiquement riches et traiter quelques problèmes communément connus en analyse de réseaux sociaux comme la prédiction de liens et l'identification d'entités influentes et de communautés. Notre propre contribution à ce thème de recherche, les principaux défis ainsi que de nouvelles pistes à explorer seront également discutés.

Référence principale
Yizhou Sun, Jiawei Han: "Mining Heterogeneous Information Networks: Principles and Methodologies". Synthesis Lectures on Data Mining and Knowledge Discovery, Morgan & Claypool Publishers 2012.

Biographie

Alexis Bondu*, Marc Boullé** et Dominique Gay**- *EDF R&D, **Orange Labs

Les modèles en grilles - Principes, évaluation, algorithmes et applications (cliquer pour détails)

Résumé

Les modèles en grille permettent de manière efficace, rapide et sûre d’évaluer (1) la probabilité conditionnelle de classe d’un ensemble de variables en apprentissage supervisée et (2) leur probabilité jointe en apprentissage non-supervisé. Les modèles en grille s’appuient sur un partitionnement de chaque variable en intervalles dans le cas numérique ou en groupe de valeurs dans le cas catégoriel. Le résultat de ces partitions univariées forme une partition multivariée de l’espace de description, alors constituée d'un ensemble de cellules. Cette partition multivariée, qu’on appellera grille (de données), est un estimateur non-paramétrique constant par morceaux de la probabilité conditionnelle ou jointe. La meilleure grille peut être obtenue en utilisant une approche Bayesienne de sélection de modèles dépendant des données via des algorithmes combinatoires efficaces.
Les modèles en grilles sont déjà exploitées pour de nombreuses tâches de fouille de données, e.g., le prétraitement de données, la classification supervisée, le coclustering (de textes, de graphes, de données fonctionnelles, …) et s’étendent naturellement à d’autres techniques de modélisation telles, les arbres de décision ou les règles de classification.

Biographie

Alexis Bondu est actuellement ingénieur de recherche dans l'équipe Statistiques & outils d'aide à la décision à EDF R&D. Il s'intéresse plus particulièrement à l'apprentissage supervisé, aux flux de données et aux algorithmes en ligne.
http://alexisbondu.free.fr/
Marc Boullé est actuellement ingénieur de recherche dans l’équipe Profiling & Data Mining à Orange Labs, Lannion. Il s’intéresse plus particulièrement aux prétraitements et à la modélisation dans les grandes bases de données, à la sélection de modèles et l’estimation de densité.
http://perso.rd.francetelecom.fr/boulle/
Dominique Gay est actuellement ingénieur de recherche dans l’équipe Profiling & Data Mining à Orange Labs, Lannion. Il s’intéresse plus particulièrement à l’extraction de motifs et à la construction de descripteurs pour la classification supervisée.
https://sites.google.com/site/dominiquehomepage/home

Menu:

Invités de la conférence

Président d'honneur

Conférenciers invités

Tutoriels invités