Accueil - Equipe SIG

L’équipe SIG, acronyme de Systèmes d’Informations Généralisés (« Information Systems ») constitue l’une des plus importantes équipes du laboratoire avec 20 enseignants-chercheurs, en poste dans 4 universités de la région Occitanie :

Université Toulouse 1 Capitole, Université Toulouse 2 Jean Jaurès, Université Toulouse 3 Paul Sabatier, et Université Jean François Champollion (Ecole ISIS, Castres).

L’équipe accueille également une quarantaine de membres post-doctorants, doctorants, ingénieurs de recherche, chercheurs associés et stagiaires.

NOS RECHERCHES

Les recherches menées par l’équipe SIG concernent la donnée (“Data”) qui est au coeur des systèmes d’information modernes. Les données sont très souvent massives (“Big Data”), produites en grande quantité par des humains ou des systèmes comme les systèmes satellitaires, les réseaux sociaux, l’imagerie médicale, les capteurs et systèmes vidéo-surveillance, etc.

Les travaux de recherche de l’équipe SIG visent à concevoir et à développer des méthodes, modèles, langages, algorithmes et outils logiciels qui permettent un accès simple et efficace à l’information pertinente pour en améliorer l’usage, faciliter l’analyse et aider la prise de décision.

Nos travaux de recherche couvrent toute la chaine de traitement de la donnée, allant des données brutes aux données élaborées accessibles pour les utilisateurs cherchant de l’information, souhaitant la visualiser et effectuer des analyses décisionnelles, exploratoires et prédictives.

NOS TRAVAUX

Nos travaux concernent une grande variété de données brutes issues des bases de données d’entreprises (aéronautique, espace, énergie, biologie, santé…) et scientifiques, de collections de documents, du Web et des applications mobiles (« User Generated Content »), les données ouvertes (« Open Data »), les benchmarks scientifiques (CLEF, TREC, OAEI, TPC-H/DS…), des bases de connaissances ou données sémantiques (ontologies), de capteurs et objets connectés (IoT).

Ces données brutes sont généralement transformées sous une forme élaborée comme des tableaux relationnels ou multi-dimensionnels, des combinaisons de matrices, des fichiers inverses ou des index, des séries temporelles uni-variées ou multi-variées, des graphes ou des hypergraphes.

La richesse des données est alors exploitée par des algorithmes d’analyse et de fouille de données (data mining), d’apprentissage automatique (machine learning) et profond (deep learning) permettant de faire émerger l’intelligence cachée au sein de la donnée.

Nos travaux théoriques et appliqués ont des retombées qui s’inscrivent dans les différents domaines d’application et action stratégiques définis par le laboratoire :

Aéronautique, Espace, Transports
Calcul, Masse de Données, IA
Cybersécurité, Sécurité des biens et des personnes
Médias sociaux numériques et diffusion de l'information
e-Education
Santé, Autonomie, Bien-être
Ville intelligente

Les recherches scientifiques développées par l’équipe couvrent différents axes de recherche définis notamment par l’ACM Computing Classification System et traitent en particulier des 3 grands domaines scientifiques.

Data Management

Information Retrieval

Machine learning for applications

Data Management

Information Retrieval

Machine learning for applications

Data Management

Database design and models

Non-conventional databases (column, document, graph,key-value)
Multi-model databases (data-store, poly-stores, multi-stores)
Schema inference, Data-driven modeling

Query languages

Query algebra
Polyglot querying
Schemaless querying

Information integration

Data matching
Data cleaning, Deduplication, Entity resolution
Extract-Transform-Load (ETL)

Information systems applications

Datalake
- Metadata management
Data warehouses
- Multidimensional models
- OLAP algebra
Democratic and Enterprise information systems
- Enterprise knowledge graph modeling
- Self-learning design

Information Retrieval

Document representation

Key-phrase extraction
Transformers (BERT) document content representations

Information retrieval query processing

Query adaptation, Query expansion
Query model adaptation, Multicore model

Recommender systems

Uplift models

Retrieval tasks and Evaluations

New measures
Resources for specific languages (Malgache, Amharique)
Semantic search
Statistical test usage
Text simplification

Machine learning for applications

Anomaly detection

Outlier detection in multi-variate time-series
Pattern-based anomaly detection
Physic-constrained deep learning
Time-series forecasting

Clustering

Fair clustering
High-dimensional clustering
Multi-view clustering

Explainable AI

Explanations of learning methods
Meta-learning, Automated machine learning

Federated Learning

Federated clustering
Time-series forecasting

Text Mining

Graph-based analysis of documents
Novelty detection in semi-structured data