L’équipe SIG, acronyme de Systèmes d’Informations Généralisés (« Information Systems ») constitue l’une des plus importantes équipes du laboratoire avec 20 enseignants-chercheurs, en poste dans 4 universités de la région Occitanie :

Université Toulouse 1 Capitole, Université Toulouse 2 Jean Jaurès, Université Toulouse 3 Paul Sabatier, et Université Jean François Champollion (Ecole ISIS, Castres).

L’équipe accueille également une quarantaine de membres post-doctorants, doctorants, ingénieurs de recherche, chercheurs associés et stagiaires.

NOS RECHERCHES

Les recherches menées par l’équipe SIG concernent la donnée (“Data”) qui est au coeur des systèmes d’information modernes. Les données sont très souvent massives (“Big Data”), produites en grande quantité par des humains ou des systèmes comme les systèmes satellitaires, les réseaux sociaux, l’imagerie médicale, les capteurs et systèmes vidéo-surveillance, etc.

Les travaux de recherche de l’équipe SIG visent à concevoir et à développer des méthodes, modèles, langages, algorithmes et outils logiciels qui permettent un accès simple et efficace à l’information pertinente pour en améliorer l’usage, faciliter l’analyse et aider la prise de décision.

Nos travaux de recherche couvrent toute la chaine de traitement de la donnée, allant des données brutes aux données élaborées accessibles pour les utilisateurs cherchant de l’information, souhaitant la visualiser et effectuer des analyses décisionnelles, exploratoires et prédictives.

NOS TRAVAUX

Nos travaux concernent une grande variété de données brutes issues des bases de données d’entreprises (aéronautique, espace, énergie, biologie, santé…) et scientifiques, de collections de documents, du Web et des applications mobiles (« User Generated Content »), les données ouvertes (« Open Data »), les benchmarks scientifiques (CLEF, TREC, OAEI, TPC-H/DS…), des bases de connaissances ou données sémantiques (ontologies), de capteurs et objets connectés (IoT).

Ces données brutes sont généralement transformées sous une forme élaborée comme des tableaux relationnels ou multi-dimensionnels, des combinaisons de matrices, des fichiers inverses ou des index, des séries temporelles uni-variées ou multi-variées, des graphes ou des hypergraphes.

La richesse des données est alors exploitée par des algorithmes d’analyse et de fouille de données (data mining), d’apprentissage automatique (machine learning) et profond (deep learning) permettant de faire émerger l’intelligence cachée au sein de la donnée.

Nos travaux théoriques et appliqués ont des retombées qui s’inscrivent dans les différents domaines d’application et action stratégiques définis par le laboratoire :

Les recherches scientifiques développées par l’équipe couvrent différents axes de recherche définis notamment par l’ACM Computing Classification System et traitent en particulier des 3 grands domaines scientifiques.

Database design and models

  • Non-conventional databases (column, document, graph,key-value)
  • Multi-model databases (data-store, poly-stores, multi-stores)
  • Schema inference, Data-driven modeling

Query languages

  • Query algebra
  • Polyglot querying
  • Schemaless querying

Information integration

  • Data matching
  • Data cleaning, Deduplication, Entity resolution
  • Extract-Transform-Load (ETL)

Information systems applications

  • Datalake
    • Metadata management
  • Data warehouses
    • Multidimensional models
    • OLAP algebra
  • Democratic and Enterprise information systems
    • Enterprise knowledge graph modeling
    • Self-learning design

Document representation

  • Key-phrase extraction
  • Transformers (BERT) document content representations

Information retrieval query processing

  • Query adaptation, Query expansion
  • Query model adaptation, Multicore model

Recommender systems

  • Uplift models

Retrieval tasks and Evaluations

  • New measures
  • Resources for specific languages (Malgache, Amharique)
  • Semantic search
  • Statistical test usage
  • Text simplification

Anomaly detection

  • Outlier detection in multi-variate time-series
  • Pattern-based anomaly detection
  • Physic-constrained deep learning
  • Time-series forecasting

Clustering

  • Fair clustering
  • High-dimensional clustering
  • Multi-view clustering

Explainable AI

  • Explanations of learning methods
  • Meta-learning, Automated machine learning

Federated Learning

  • Federated clustering
  • Time-series forecasting

Text Mining

  • Graph-based analysis of documents
  • Novelty detection in semi-structured data