systèmes d'informations généralisés |
|
|
description du projet TREC (Text REtrieval Conference)
1. Le projet TRECTREC est un projet international initié au tout début des années 90 par le NIST (National Institute of Standards and Technology) aux Etats-Unis dans le but de proposer des moyens homogènes d'évaluation de systèmes documentaires sur des bases de documents conséquentes. Il est aujourd'hui co-sponsorisé par le NIST et DARPA/ITO (Defense Advanced Research Projects Agency - Information Technology Office). L'objectif de TREC est d'encourager les travaux de recherche en informatique documentaire permettant l'accès à des bases volumineuses en fournissant :
Depuis la création du projet, l'intérêt pour TREC ne
cesse de croître et l'édition 1998 (TREC7) comptait la
participation de 56 groupes (37 centres de
recherches, 19 industries) provenant de 13 pays différents.
Ainsi, grâce à un nombre croissant
de résultats envoyés, de plus en plus de techniques et de
systèmes sont développés
et évalués, favorisant les discussions et les
échanges entre groupes y participant. 2. Conditions de participationNIST diffuse courant Décembre un Appel à participation
qui explique dans les grandes lignes les
objectifs et le déroulement du projet pour l'année
à venir. Les demandes de participation
doivent être déposées en janvier, aussi bien pour
les anciens participants que pour les nouveaux. 3. Principes de travail et de réalisation des évaluations3.1 Tâche principale : Ad hocLa tâche ad hoc dans TREC évalue les performances des
systèmes de recherche d'informations.
sur des ensembles statiques de documents, seules les requêtes
changent. Cette tâche est similaire à
une recherche dans une bibliothèque par exemple, où la
collection est connue mais les questions susceptibles
d'être posées ne le sont pas. 3.2 Tâches spécifiques :Ces tâches ont été introduites progressivement dans TREC (depuis TREC4 en 1996) afin de permettre l'évaluation de problèmes spécifiques en recherche d'informations telles que le filtrage, le croisement de langues, la recherche dans de très large corpus (25 giga-octets et plus), les modèles d'interaction, ... 3.2.1 Filtering Track (Filtrage d'informations)Dans cette tâche, à l'inverse de la tâche
principale ad hoc, les "sujets" sont
stables alors que le flot de documents varie à chaque fois. Pour
chaque document, le système doit
prendre une décision binaire, à savoir le document est
pertinent ou ne l'est pas (au lieu de fournir
une liste ordonnée). 3.2.2 Cross-Language Track (Recherche d'informations multilingues)Une tâche ad-hoc dans laquelle les documents sont en anglais,
allemand, français, ou italien, et
les sujets sont fournis dans chaque langue. Le centre
d'intérêt de cette tâche est la recherche
de documents qui concernent le sujet indépendamment de la
langue. 3.2.3 Interactive TrackL'objectif de cette tâche est d'étudier les
modèles d'interaction en recherche d'informations.
Il s'agit autant d'évaluer le processus de recherche que son
issue. 3.2.4 Query TrackCette tâche a pour objectif de comparer les méthodes de
construction de requêtes et l'influence
de ces méthodes sur les performances des systèmes. Chaque
groupe participant construit ses propres
requêtes et échange ensuite celles-ci avec tous les autres
participants. Plusieurs comparaisons sont
alors directement possibles : 3.2.5 Question Answering TrackL'objectif de cette tâche est de ne plus travailler sur le
document tout entier mais sur les parties de
documents. Au lieu de rechercher la pertinence d'un document dans sa
totalité, on va rechercher la pertinence
de passages (ou extraits) de documents. Pour chacune des 200 questions,
les systèmes doivent restituer des
extraits de documents qui sont pertinents pour cette question. Plusieurs
niveaux de réponses doivent être
testés. Ces niveaux diffèrent par la longueur maximale de
l'extrait (en octets) : de phrases courtes
(2 à 3 mots) au document en entier (1000 mots). On peut assimiler
ces types d'extraits à des fenêtres
de 50, 200 , 1000, ... octets. 3.2.6 Spoken Document Retrieval TrackCette tâche ad hoc étudie la capacité des
systèmes de recherche d'informations à
retrouver des documents sonores (textes parlés). Il s'agit de
comparer l'efficacité de leurs systèmes
sur des transcriptions de journaux télévisés ; ces
transcriptions étant obtenues manuellement,
par un système basique de reconnaissance de la parole ou,
optionnellement, par leur propre système
de reconnaissance. 3.2.7 Web TrackUne nouvelle tâche ad-hoc dans laquelle les documents sont un
ensemble représentatif de documents
issus du World Wide Web. Une première tâche propose, sur
approximativement 2 GO de documents Web,
d'étudier l'impact de l'utilisation des liens hypertextes sur les
performances de la recherche d'informations.
Une base de 100 GO de documents Web est également mise à
disposition, pour les participants qui souhaiteraient
compléter leurs investigations.
|