L’équipe SIG, acronyme de Systèmes d’Informations Généralisés (« Information Systems ») constitue l’une des plus importantes équipes du laboratoire avec 20 enseignants-chercheurs, en poste dans 4 universités de la région Occitanie :
Université Toulouse 1 Capitole, Université Toulouse 2 Jean Jaurès, Université Toulouse 3 Paul Sabatier, et Université Jean François Champollion (Ecole ISIS, Castres).
L’équipe accueille également une quarantaine de membres post-doctorants, doctorants, ingénieurs de recherche, chercheurs associés et stagiaires.
NOS RECHERCHES
Les recherches menées par l’équipe SIG concernent la donnée (“Data”) qui est au coeur des systèmes d’information modernes. Les données sont très souvent massives (“Big Data”), produites en grande quantité par des humains ou des systèmes comme les systèmes satellitaires, les réseaux sociaux, l’imagerie médicale, les capteurs et systèmes vidéo-surveillance, etc.
Les travaux de recherche de l’équipe SIG visent à concevoir et à développer des méthodes, modèles, langages, algorithmes et outils logiciels qui permettent un accès simple et efficace à l’information pertinente pour en améliorer l’usage, faciliter l’analyse et aider la prise de décision.
Nos travaux de recherche couvrent toute la chaine de traitement de la donnée, allant des données brutes aux données élaborées accessibles pour les utilisateurs cherchant de l’information, souhaitant la visualiser et effectuer des analyses décisionnelles, exploratoires et prédictives.
NOS TRAVAUX
Nos travaux concernent une grande variété de données brutes issues des bases de données d’entreprises (aéronautique, espace, énergie, biologie, santé…) et scientifiques, de collections de documents, du Web et des applications mobiles (« User Generated Content »), les données ouvertes (« Open Data »), les benchmarks scientifiques (CLEF, TREC, OAEI, TPC-H/DS…), des bases de connaissances ou données sémantiques (ontologies), de capteurs et objets connectés (IoT).
Ces données brutes sont généralement transformées sous une forme élaborée comme des tableaux relationnels ou multi-dimensionnels, des combinaisons de matrices, des fichiers inverses ou des index, des séries temporelles uni-variées ou multi-variées, des graphes ou des hypergraphes.
La richesse des données est alors exploitée par des algorithmes d’analyse et de fouille de données (data mining), d’apprentissage automatique (machine learning) et profond (deep learning) permettant de faire émerger l’intelligence cachée au sein de la donnée.
Nos travaux théoriques et appliqués ont des retombées qui s’inscrivent dans les différents domaines d’application et action stratégiques définis par le laboratoire :
- Aéronautique, Espace, Transports
- Calcul, Masse de Données, IA
- Cybersécurité, Sécurité des biens et des personnes
- Médias sociaux numériques et diffusion de l'information
- e-Education
- Santé, Autonomie, Bien-être
- Ville intelligente
Les recherches scientifiques développées par l’équipe couvrent différents axes de recherche définis notamment par l’ACM Computing Classification System et traitent en particulier des 3 grands domaines scientifiques.
Database design and models
- Non-conventional databases (column, document, graph,key-value)
- Multi-model databases (data-store, poly-stores, multi-stores)
- Schema inference, Data-driven modeling
Query languages
- Query algebra
- Polyglot querying
- Schemaless querying
Information integration
- Data matching
- Data cleaning, Deduplication, Entity resolution
- Extract-Transform-Load (ETL)
Information systems applications
- Datalake
- Metadata management
- Data warehouses
- Multidimensional models
- OLAP algebra
- Democratic and Enterprise information systems
- Enterprise knowledge graph modeling
- Self-learning design
Document representation
- Key-phrase extraction
- Transformers (BERT) document content representations
Information retrieval query processing
- Query adaptation, Query expansion
- Query model adaptation, Multicore model
Recommender systems
- Uplift models
Retrieval tasks and Evaluations
- New measures
- Resources for specific languages (Malgache, Amharique)
- Semantic search
- Statistical test usage
- Text simplification
Anomaly detection
- Outlier detection in multi-variate time-series
- Pattern-based anomaly detection
- Physic-constrained deep learning
- Time-series forecasting
Clustering
- Fair clustering
- High-dimensional clustering
- Multi-view clustering
Explainable AI
- Explanations of learning methods
- Meta-learning, Automated machine learning
Federated Learning
- Federated clustering
- Time-series forecasting
Text Mining
- Graph-based analysis of documents
- Novelty detection in semi-structured data
Database design and models
- Non-conventional databases (column, document, graph,key-value)
- Multi-model databases (data-store, poly-stores, multi-stores)
- Schema inference, Data-driven modeling
Query languages
- Query algebra
- Polyglot querying
- Schemaless querying
Information integration
- Data matching
- Data cleaning, Deduplication, Entity resolution
- Extract-Transform-Load (ETL)
Information systems applications
- Datalake
- Metadata management
- Data warehouses
- Multidimensional models
- OLAP algebra
- Democratic and Enterprise information systems
- Enterprise knowledge graph modeling
- Self-learning design
Document representation
- Key-phrase extraction
- Transformers (BERT) document content representations
Information retrieval query processing
- Query adaptation, Query expansion
- Query model adaptation, Multicore model
Recommender systems
- Uplift models
Retrieval tasks and Evaluations
- New measures
- Resources for specific languages (Malgache, Amharique)
- Semantic search
- Statistical test usage
- Text simplification
Anomaly detection
- Outlier detection in multi-variate time-series
- Pattern-based anomaly detection
- Physic-constrained deep learning
- Time-series forecasting
Clustering
- Fair clustering
- High-dimensional clustering
- Multi-view clustering
Explainable AI
- Explanations of learning methods
- Meta-learning, Automated machine learning
Federated Learning
- Federated clustering
- Time-series forecasting
Text Mining
- Graph-based analysis of documents
- Novelty detection in semi-structured data