Projet ANCOR
Page issue du site internet du projet
Les corpus annotés
Les corpus annotés sont disponibles
Résumé du projet
Le projet ANCOR a pour objet l'étude de toutes les formes de reprises anaphoriques et de coéréférence dans une optique pluridisciplinaire (traitement automatique, typologie, sémantique) autour de l’étude de la langue orale.
On appelle coréférence, et plus généralement anaphore, la relation entre deux items langagiers telle que l’interprétation de l’un dépend de l’autre. C’est par exemple le cas de l’anaphore pronominale entre Gordon Brown et le pronom il dans l’énoncé «Gordon Brown a quitté hier ses fonctions. Il a déclaré…». Le développement d’outils performants de recherche d’information dans des flux langagiers passe par une modélisation efficace des anaphores.
Le projet ANCOR s’attachera ainsi plus particulièrement à décrire les anaphores nominales, qui ont été peu étudiées sur la parole spontanée. Dans cet objectif, des travaux d'annotations en corpus de la coréférence, de modélisation informatique et d’évaluation seront développés au cours du projet.
Le projet ANCOR vise à rendre compte de l'usage des procédés anaphoriques sur l’oral spontané, en vue de la résolution automatisée de la coréférence et des anaphores. L'objectif est l'amélioration des systèmes de recherche d'information dans le domaine de l'oral. Parmi les cadres applicatifs visés, on trouve le suivi d’entités nommées ou la fouille d’opinion dans les flux de données audio ou vidéo (émissions radio ou télédiffusées).
L’importance de la résolution des anaphores a conduit à l’émergence de travaux qui ont fait l’objet de multiples campagnes d’évaluation internationales (MUC, SemEval). Ces recherches portent toutefois majoritairement sur les documents électroniques, la parole conversationnelle faisant surtout l’objet de travaux sur l’anaphore pronominale.
Ce projet ambitionne au contraire de s’intéresser à toutes les formes de reprises anaphoriques à l’oral, en s’intéressant en particulier à la coréférence nominale. Nous suivrons une méthodologie d’investigation faisant appel à des compétences pluridisciplinaires :
- Annotation des anaphores sur des corpus hétérogènes de parole spontanée en français.
- Analyse linguistique des corpus annotés à des fins de modélisation de l’anaphore à l’oral
- Développement de modèles informatisés de résolution des anaphores et évaluation
Les corpus oraux recueillis en Région Centre (ESLO…) constitueront notre terrain d'investigation.
L'action se réalisera du 1er octobre 2011 au 31 septembre 2013.
Partenaires du projet
- LI : Jean-Yves ANTOINE, Nathalie FRIBURGER, Denis MAUREL et Damien NOUVEL.
- LLL : Emmanuel SCHANG et Iris ESHKOL.