Equipe SIG

Responsable : Olivier TESTE

L’équipe SIG, Systèmes d’Informations Généralisés (« Information Systems »), est une équipe qui existe depuis la création de l’IRIT, et constitue l’une des plus grandes équipes du laboratoire avec 21 enseignants-chercheurs en poste dans 4 universités de la région Occitanie : Université Toulouse 1 Capitole, Université Toulouse 2 Jean Jaurès, Université Toulouse 3 Paul Sabatier, Université Jean François Champollion (Ecole ISIS, Castres). L’équipe compte aussi près d’une trentaine d’étudiants post-doctorants, doctorants ou stagiaires, et d’ingénieurs de recherche.

Les recherches développées par l’équipe SIG concernent la donnée (« data »), en particulier la gestion des données et le traitement des masses de données actuelles (« Big Data »). Ils visent à développer des méthodes, modèles, langages et outils qui permettent un accès simple et efficace à l’information pertinente pour permettre ou en améliorer l’usage, faciliter l’analyse et aider à la prise de décisions.

Nos travaux concernent une grande variété de collections de données : bases de données scientifiques et des entreprises (aéronautique, espace, énergie, biologie, santé…), le Web et les applications mobiles actuelles (user generated content), les données ouvertes (open data), les benchmarks scientifiques (CLEF, OAEI, SSB, TPC-H/DS, TREC…), les connaissances ou données sémantiques (ontologies), les capteurs et les objets connectés (IoT)…

Les travaux de recherche de l’équipe SIG couvrent toute la chaîne de traitement de la donnée, allant des données brutes aux données élaborées accessibles pour les utilisateurs cherchant de l’information, souhaitant la visualiser et effectuer des analyses décisionnelles et prédictives.

PNG - 6.3 ko

Figure 1 : Chaîne de traitement de la donnée.
Ces travaux s’articulent en 4 volets.

Intégration automatique de données hétérogènes

Les données disponibles de nos jours constituent des masses de données volumineuses, de structuration disparate (structurées, semi-structurées à non-structurées), largement distribuées et souvent très hétérogènes. Nos travaux portent sur les différentes facettes de l’hétérogénéité : hétérogénéité d’entités, hétérogénéité structurelle, hétérogénéité syntaxique et sémantique des éléments.

L’enjeu est de développer des méthodes et algorithmes permettant de retrouver de manière automatique les correspondances entre les éléments issus deux ou de multiples sources (« alignements holistiques ») de données et de connaissances. Les correspondances cherchées peuvent être simples 1:1 ou complexes 1:n (ou n:1) et n:m.

Gestion des bases données non-conventionnelles

Les systèmes de gestion de base de données modernes doivent de nos jours être capables de prendre en charge des grands volumes de données, caractérisées par une importante variété (données conventionnelles comme les bases relationnelles, documents structurés – XML, JSON –, collections de textes, ontologies de domaines…). Ils ne reposent plus sur un modèle uniformément structuré et standard (relationnel), mais reposent sur des systèmes de stockage centralisés (data warehouse, data lake) ou distribués basés sur des paradigmes non-conventionnels (orientés clé-valeur, orientés document, orientés colonne, orientés graphe). Ces systèmes non conventionnels sont aussi appelés noSQL (not only SQL).

Dans ce contexte multi-modèle, l’enjeu consiste à développer de nouvelles méthodes de conception intégrant des modèles de représentation des données clairement formalisés (concepts et formalismes), et les langages de manipulations associés. Chaque langage défini doit assurer la complétude d’un noyau algébrique fermé d’opérateurs élémentaires, assurant la couverture du modèle, garantissant la validité et la puissance du langage.

Données orientées-utilisateurs

La connaissance de l’utilisateur est essentielle dès que l’on souhaite développer des systèmes complexes, capables d’être plus efficaces, et éventuellement de s’adapter. Cette connaissance est le plus souvent basée sur la construction d’un profil utilisateur, défini comme un ensemble de données caractérisant l’usager, son contexte et l’usage.

Dans ce contexte, nos travaux portent sur la définition de profils utilisateurs contextuels (spatio-temporels, égocentrés) relatifs à un utilisateur ou un groupe d’utilisateurs. Nous exploitons ces profils pour développer des approches algorithmiques dans les systèmes de recommandation et de filtrage d’informations (diversité) ainsi que dans le contexte de l’analyse des réseaux sociaux (détection de communautés, de fraudes, d’influences, de sentiments).

Analyse, apprentissage et prédiction dans les données massives

L’avènement des Big Data révolutionne l’informatique. L’humanité produit de nos jours des masses de données gigantesques, au travers du réseau mondialisé Internet, des appareils mobiles et l’Internet des objets, mais également par des infrastructures scientifiques de d’observation et captation (satellites, accélérateurs de particules, séquenceurs d’ADN…). Selon une étude IDC pour EMC (The digital universe of opportunities) parue en avril 2014, le volume de données produites devrait être multiplié par 10 entre 2013 et 2020 (44 Zettabytes). De nouveaux algorithmes sont aujourd’hui développés au-dessus de clusters de machines rendant possible l’analyse, et la réalisation de simulations et de prédictions à partir de ces masses de données.

L’équipe SIG mène des recherches sur la paramétrisation d’algorithmes d’analyse et de fouille de données (data mining), d’apprentissage automatique (machine learning) et profond (deep learning). L’intelligence de la donnée est un enjeu de la science des données, qui dépend de l’efficacité des algorithmes et des méthodes d’analyse. Ces approches doivent être mise en place en garantissant la reproductibilité la plus large possible. Ceci est généralement difficile à satisfaire car les collections de données volumineuses et hétérogènes sont souvent de qualité variable, et réparties selon des distributions déséquilibrées ou éparses. Ces caractéristiques obligent des paramétrisations précises rendant les approches spécifiques à un sous ensemble réduit de données.

Compétences

conception et modélisation des bases de données non-conventionnelles : entrepôts de données (Data Warehouse, OLAP), lac de données (DataLake), stockage noSQL
intégration automatique de données hétérogènes et de connaissances (Data Matching, Ontology Alignment)
gestion de documents complexes
analyse des médias sociaux
processus contextualisés de la recherche d'information
systèmes de recommandation, chatbot
fouille de données (Data Mining) et apprentissage automatique (Machine Learning, Deep Learning) dans les masses de données multimodales

personnel de l’équipe SIG

Membres permanents
Membres non – permanents

publications de l’équipe SIG

Articles dans des revues internationales
Articles dans des revues nationales
Rédaction de numéros spéciaux de revues
Conférences et workshops internationaux avec actes édités et comité de lecture
Conférences sans actes publiés
Livres (monographies)
Thèses et habilitations
  • Thi Bich Ngoc Hoang

    Diffusion d’information, extraction d’information et de connaissance dansles réseaux sociaux

    Thèse de doctorat, Université de Toulouse-le-Mirail, 2018.

    BibTeX

  • Amine El Haddadi

    Conception et développement d’un système d’intelligence économique (SIE) pour l’analyse de big data dans un environnement de cloud computing

    Thèse de doctorat, Université Paul Sabatier, 2018.

    BibTeX

  • Amal Ait Brahim

    Approche dirigée par les modèles pour l’implantation de bases de données massives sur des SGBD NoSQL

    Thèse de doctorat, Université de Toulouse, octobre 2018.

    BibTeX

  • Abdelhamid Chellal

    Event Summarization on Social Media Stream: Retrospective and Prospective Tweet Summarization

    Thèse de doctorat, Université Paul Sabatier, septembre 2018.

    Résumé Accès : https://www.irit.fr/publis/IRIS/2018_These-CHELLAL.pdf
    BibTeX

  • Mahdi Washha

    Information Quality in Online Social Media and Big Data Collection: An Example of Twitter Spam Detection

    Thèse de doctorat, Université Paul Sabatier, juillet 2018.

    BibTeX

  • William Raynaut

    Perspectives de Méta-Analyse pour un Environnement d’aide à la Simulation et Prédiction

    Thèse de doctorat, Université de Toulouse, janvier 2018.

    Accès : ftp://ftp.irit.fr/IRIT/SIG/2018_These_Raynaut.pdf
    BibTeX

  • Kiswendsida Kisito Kaboré

    Système d’aide pour l’accès non supervisé aux unités documentaires

    Thèse de doctorat, Université Paul Sabatier, 2017.

    BibTeX

  • Jeremy Bascans

    Modèles de mémoires d’entreprise avec intégration automatique d’informations

    Thèse de doctorat, Université Paul Sabatier, octobre 2017.

    Résumé
    BibTeX

  • Jiefu Song

    Business Intelligence Enhanced by the Web of Data

    Thèse de doctorat, Université de Toulouse, décembre 2017.

    Résumé Accès : https://www.irit.fr/publis/SIG/J.SONG_Manuscrit.pdf
    BibTeX

  • Anass El Haddadi

    Big Data Mining: de l’extraction des données à leur visualisation

    Habilitation à diriger des recherches, université Abdelmalek Essaadi,, Tétouan, Maroc, mars 2017.

    BibTeX

Rapports

contrats de l’équipe SIG

AcronymeTitrePériodeResponsables
scientifiques
Partenaires
FILTER 2Filtrage négatif des contenus de vidéo protection2016-2020Sedes, FlorenceCNRS (EPCST) – THC/Thales Communication (THC)(Société Anonyme) – Université de Poitiers(EPCSCP) – Préfecture de Police(Administration)
ARCSYS
[Contrat terminé]
Accés et recollection dans les systèmes d’information complexes2013-2015Chevalier, MaxCNRS (EPCST) – Université Paris VI(EPCSCP) – CNRS / Délégation Midi Pyrénées (EPCST)
INCOME
[Contrat terminé]
Infrastructure logicielle de gestion de contexte multi-échelle pour l’internet des objets2012-2015Arcangeli, Jean-Paul # Desprats, Thierry # Peninou, AndréInstitut Telecom(EPCSCP)
METHODEO
[Contrat terminé]
Méthodologie de tests et définition de métriques poour l’évaluation d’alogorithmes pour la vidéoprotection2011-2013Sedes, FlorenceTHC/Thales Communication (THC)(Société Anonyme) – CEA/LIST(Laboratoire) – Supélec(EPCSCP) – Thales Services SAS(GE – SAS) – TSP/Telecom Sud Paris(Ecole) – Keeno sas(SAS Société par Actions Simplifiées)
CAAS
[Contrat terminé]
Contextual Analysis and Adaptative Search2010-2014Mothe, JosianeLIA Avignon(Laboratoire) – Cognition, Langue, langage Ergonomie (CLLE)(Laboratoire)
AcronymeTitrePériodeResponsables
scientifiques
Partenaires
PREVISIONPrediction and Visual Intelligence for Security Information2019-2021Mothe, JosianeFraunhofer-Gesellschaft zur Forderung der Angewandten Forschung E.V(Organisme étranger – Public) – SIVECO ROMANIA SA (Institution étrangère) – ICCS/Institute of communication and computer systems (Organisme étranger – Public) – UPV/Universitat Politecnica de Valencia(Organisme étranger – Public) – ETRA INVESTIGACION Y DESARROLLO SA(Organisme étranger – Public) – ITTI SP ZOO(Organisme étranger – Privé) – IFMPT INSTITUT FUR PROGNOSETECHNIK VERTRIEBS GMBH(Organisme étranger – Public) – BALTIJOS PAZANGIU TECHNOLOGIJU INSTITUTAS(Organisme étranger – Public) – ETHNIKO KENTRO EREVNAS KAI TECHNOLOGIKIS ANAPTYXIS(Organisme étranger – Public) – SPACE HELLAS ANONYMI ETAIREIA SYSTIMATA KAI YPIRESIES TILEPIKOINONIONPLIROFORIKIS ASFALEIAS – IDIOTIKI EPICHEIRISI PAROCHIS YPERISION ASFA(Organisme étranger – Public)
FabSpace 2.0
[Contrat terminé]
The Fablab for geodata-driven innovation – by leveraging Space data in particular, in Universities 2.02016-2019Mothe, JosianeUL/Université de Liège (UL)(EPCSCP) – Athena Research and Innovation Center in Information Communication & Knowledge Technologies(Institution étrangère) – TerraNIS(PME) – AV/Aesrospace Valley(Association) – UoRT/Université Degli Studi Di Roma Torvergata (Organisme étranger – Public) – ESA BIC LAZIO/BIC LAZIO SPA(Organisme étranger – Public) – WSL ESA BIC WR/WSL ESA BIC WR(Organisme étranger – Public) – Cesah ESABICDA/Cesah GmbH Centrum für Satellitennavigation Hessen(Organisme étranger – Public) – Ecole polytechnique de Varsovi/POLITECHNIKA WARZAWSKA(Organisme étranger – Public) – OPEGIEKA/OPEGIEKA SPOLKA Z OGRANICZONA ODPOWIEDZIALNOSCIA(Organisme étranger – Privé) – EBN/European Business and Innovation Centre Nerwork(Organisme étranger – Privé) – IDGEO/IDGEO(PME – SARL) – ICCS/Institute of communication and computer systems (Organisme étranger – Public)
SOMIR
[Contrat terminé]
Semantic Oriented Multimedia Information Retrieval2009-2011Sedes, Florence
LINDO
[Contrat terminé]
Large scale distributed INDexation of multimedia Objets2007-2010Sedes, FlorenceCEA/LIST(Laboratoire) – Supélec(EPCSCP) – Thales Security Systems(Grande Entreprise) – Space Applications Services(Grande Entreprise) – KUL/Katholieke Universiteit Leuven(Organisme étranger – Public) – Denodo(Institution étrangère) – T I+D/Telefonica Investigacion y Desarolla (Institution étrangère) – SGT(PME) – Hi-Store(Société Anonyme)
EDeAN
[Contrat terminé]
European Design for All for eInclusion2006-2009Vigouroux, NadineCNR ISTI/Consiglio Nazionale delle Ricerche(Institution étrangère)
CONTRAPUNCTUS
[Contrat terminé]
CONTRAPUNCTUS Braille Music Digital Sources2006-2009Jessel, NadineArca Progetti SRL(Grande Entreprise) – Unione Italiana Ciechi – Verona(Association) – Biblioteca italiana/Biblioteca italiana per i ciechi ‘Regina Margherita'(Institution étrangère) – Stiching FNB(Institution étrangère) – Organizacion Nacional De Ciegos Españoles, Cidat(Institution étrangère) – Royal National Institute of the Blind(Institution étrangère) – IPTK LOGOS VOS(Institution étrangère) – Union Europénne des Aveugles(Association) – Conservatorio musicale di Padova(Institution étrangère)
WS-Talk
[Contrat terminé]
Web services communicating in the language of their community2004-2006Mothe, JosianeLemonlabs GmbH(Institution étrangère)
LAMBDA
[Contrat terminé]
Linear Access to Mathematic for Braille Device and Audio-synthesis2002-2005Jessel, NadineUniversity of York(EPCSCP) – Università Statale di Milano (EPCSCP) – Ministero dell¿Istruzione (MIUR)(Ministère) – Universität Stuttgart(EPCSCP) – EBU European Blind Union(Association) – ACAPO/ACAPO – Associação dos Cegos e Ambliopes de Portugal(Association) – BIC-Italian Library of the Blind (PME) – Dodecanese Association in Rhodes(Association) – Moscow’s Logos Center (Association) – ONCE/ONCE – Organización Nacional de Ciegos Españoles (Administration) – RNIB/RNIB Royal National Institute of the Blind(Administration) – Unione Italiana Ciechi – Verona(Association) – Veia Progetti SRL(PME)
E-STAGE
[Contrat terminé]
A new stage for the cultural heritage in european Puppetry2001-2005Mothe, JosianeUPS/Université Toulouse III(EPCSCP) – Lemonlabs GmbH(Institution étrangère) – Theater Waidspeicher() – Deutsches Institut fuer Wirtschaftsforschung E.V.(Laboratoire)
Mercredi 2 Octobre 2019, 14h00
Interrogation de données hétérogènes dans les bases de données orientées documents
Hamdi BEN HAMADOU – Equipe SIG, IRIT UT3 Paul Sabatier, IRIT, Auditorium J. Herbrand
#these
Vendredi 27 Septembre 2019, 10h00
Partitioning And Local Matching Learning of Large Biomedical Ontologies
Amir LAADHAR – Equipe SIG, IRIT UT3 Paul Sabatier, IRIT, Auditorium J. Herbrand
#these
Mardi 18 Décembre 2018, 14h00
Modèles neuronaux pour la recherche d’information : approches dirigées par les ressources sémantiques
Gia Hung NGUYEN – Equipe IRIS – IRIT UT3 Paul Sabatier, IRIT, Auditorium J. Herbrand
#these
Mercredi 31 Octobre 2018, 10h00
Approche dirigée par les modèles pour l’implantation de bases de données massives sur des SGBD NoSQL
Amal AIT BRAHIM – Equipe SIG – IRIT UT1 Capitole, Salle des Thèses
#these
Vendredi 28 Septembre 2018, 10h00
Information Diffusion, Information and Knowledge Extraction From Social Networks
Thi Bich Ngoc HOANG – Equipe SIG – IRIT UT3 Paul Sabatier, IRIT, Auditorium J. Herbrand
#these
Lundi 17 Septembre 2018, 10h00
Synthèse d’événement dans les médias sociaux : résumé rétrospectif et prospectif de microblogs
Abdelhamid CHELLAL – Equipe IRIS – IRIT UT3 Paul Sabatier, IRIT, Auditorium J. Herbrand
#these
Mardi 17 Juillet 2018, 9h30
Information Quality in Online Social Media and Big Data Collection: An Example of Twitter Spam Detection
Mahdi WASHHA – Equipe SIG – IRIT UT3 Paul Sabatier, IRIT, Salle des Thèses
#these
Vendredi 12 Janvier 2018, 10h30
Perspectives de Méta-Analyse pour un Environnement d’aide à la Simulation et Prédiction
William RAYNAUT – Equipe SIG – IRIT UT3 Paul Sabatier, IRIT, Auditorium J. Herbrand
#these
Mardi 5 Décembre 2017, 13h30
L’aide à la décision enrichie par le web des données
Jiefu SONG – Equipe SIG – IRIT UT1 Capitole, Manufacture des Tabacs, Salle des thèses
#these
Vendredi 6 Octobre 2017, 10h00
Modèles de mémoires d’entreprise avec intégration Aatomatique d’Informations 
Jeremy BASCANS – Equipe SIG – IRIT UT3 Paul Sabatier, IRIT, Auditorium J. Herbrand
#these
Dimanche 21 Juillet 2019 – Jeudi 25 Juillet 2019
SIGIR 2019 : 42nd International ACM SIGIR Conference on Research and Development in Information Retrieval
Paris
#congres En savoir plus
Mardi 6 Novembre 2018 – Vendredi 9 Novembre 2018
SAGEO 2018 : Spatial Analysis and GEOmatics
Montpellier
#congres En savoir plus
Jeudi 21 Juin 2018 – Vendredi 22 Juin 2018
VSST 2018 : Séminaire international Veille Stratégique Scientifique et Technologique
UT3 Paul Sabatier, IRIT, Auditorium J. Herbrand
#congres En savoir plus
Lundi 16 Octobre 2017
Colloque SIF : Casser les codes — Femmes, genre et informatique
Institut des sciences de la communication – CNRS/Paris-Sorbonne/UPMC, Paris
#congres En savoir plus
Jeudi 1 Juin 2017
Dans le cadre d’INFORSID 2017 : Atelier Systèmes d’information et de décision et Démocratie
Manufacture des Tabacs, salle MD001
#congres En savoir plus
Mercredi 31 Mai 2017
Dans le cadre d’INFORSID 2017 : Atelier Valorisation et Analyse des DOnnées de la Recherche (VADOR)
Manufacture des Tabacs
#congres En savoir plus
Mardi 30 Mai 2017
Dans le cadre d’INFORSID 2017 : Atelier De la surveillance à la gestion de crise : prise en compte des alertes
Manufacture des Tabacs, salle MH001
#congres En savoir plus
Mardi 30 Mai 2017 – Vendredi 2 Juin 2017
35e édition d’INFormatique des ORganisations et Systèmes d’Information et de Décision (INFORSID 2017)
Manufacture des Tabacs
#congres En savoir plus
Mercredi 9 Mars 2016 – Vendredi 11 Mars 2016
Semaine du Document Numérique et de la Recherche d’Information
Ecole Supérieure du Professorat et de l’Education (ESPE), Toulouse
#congres En savoir plus
Vendredi 13 Novembre 2015
Journée Femmes et Sciences : Choisir et vivre une carrière scientifique ou technique au féminin : pourquoi, comment ?
Muséum d’Histoire Naturelle de Toulouse, Toulouse
#congres En savoir plus
Vendredi 5 Juillet 2019, 15h20 – 16h00
A theory of information perspective on hyperspectral images
Mihai IVANOVICI – Transilvania University of Brasov (Roumanie) UT3 Paul Sabatier, IRIT, Salle des Thèses
#seminaire
Jeudi 7 Février 2019, 11h00 – 12h00
Usage patterns of non-native language speakers discovered by string kernels for native language identification
Radu TUDOR IONESCU – University of Bucharest (Roumanie) UT3 Paul Sabatier, IRIT, Salle du Conseil
#seminaire
Mercredi 6 Février 2019, 14h00 – 15h30
Machine learning for anomaly detection in Video
Radu TUDOR IONESCU – University of Bucharest (Roumanie) UT3 Paul Sabatier, IRIT, Auditorium J. Herbrand
#seminaire
Lundi 19 Novembre 2018, 14h00 – 15h00
Information Theory
Mariam HARUTYUNYAN – Institute for Informatics and Automation Problems of National Academy of Sciences of Armenia (IIAP NAS RA) (Arménie) UT3 Paul Sabatier, IRIT, Auditorium J. Herbrand
#seminaire
Mercredi 18 Juillet 2018, 14h00 – 15h00
The Evolution of Belief Rule Based Expert Systems: A New Paradigm of Computing
Mohammad SHAHADAT HOSSAIN – Dpt of Computer Science and Engineering, University of Chittagong (Bengladesh) UT3 Paul Sabatier, IRIT, Salle des Thèses
#seminaire
Vendredi 6 Juillet 2018, 11h00 – 12h00
Non-linear approaches based on the maximum distance — a pseudo morphology and PCA approximation for color, multispectral and hyperspectral data/image analysis
Mihai IVANOVICI – Transilvania University of Brasov (Roumanie) UT3 Paul Sabatier, IRIT, Auditorium J. Herbrand
#seminaire
Vendredi 9 Février 2018, 11h00 – 12h00
Thematic Semeste on Mathematic and Computer Science in Biology: Computational biophotonics and surgical data science for next-generation cancer treatment
Prof. Dr. Lena MAIER-HEIN – Div. Computer Assisted Medical Interventions (CAMI) German Cancer Research Center (DKFZ) (Allemagne) UT3 Paul Sabatier, IRIT, Auditorium J. Herbrand
#seminaire
Vendredi 9 Février 2018, 8h45 – 9h45
Thematic Semester on Mathematic and Computer Science in Biology: Opportunities and challenges of using clinical data, including that from the electronic health record
William R. HERSH – Oregon Health & Science University (OHSU) (Etats-Unis) UT3 Paul Sabatier, IRIT, Auditorium J. Herbrand
#seminaire
Mardi 16 Mai 2017, 12h30 – 14h00
Mon téléphone n’est plus une brique quand je veux écrire
Philippe ROUSSILLE – Equipe SIG – IRIT (France) UT1 Capitole, Manufacture des Tabacs, Salle ME302
#seminaire
Lundi 7 Novembre 2016, 14h00 – 16h00
A Test Collection for Research on Depression and Language Use
Fabio CRESTANI – Faculty of Informatics, University of Lugano (Suisse) UT3 Paul Sabatier, IRIT, Auditorium J. Herbrand
#seminaire
Mardi 10 Septembre 2019
Journée Ingénierie des Exigences du GDR GPL – JET 2019 – JET 2019
UT3 Paul Sabatier, IRIT, Auditorium J. Herbrand
#journee
Lundi 1 Octobre 2018
JET 2018 : Journée ingénierie des Exigences à Toulouse
UT3 Paul Sabatier, IRIT, Auditorium J. Herbrand
#journee
Mardi 30 Mai 2017
Dans le cadre d’INFORSID 2017 : Atelier Open et/ou Linked Data dans les systèmes d’information
UT1 Capitole, Manufacture des tabacs – Hall Bât E – salle MH003
#journee
Lundi 16 Novembre 2015 – Mardi 17 Novembre 2015
Journées Big Data des GDR MADICS et MascotNUM – Trimestre thématique du LabEx CIMI
UT3 Paul Sabatier, IMT, Amphithéâtre Schwartz – Bât U4, Amphithéâtre Concorde
#journee