La Reconnaissance d’Entités Nommées (REN) consiste à classer des segments de texte dans des catégories prédéfinies telles que “personne”, “organisation”, ou “lieu”. Les systèmes de REN atteignent de bons résultats lorsqu’il s’agit de traiter un nombre restreint d’entités, d’autant plus lorsque les textes respectent les normes de la langue. Cependant, dans des applications telles que Twitter où les textes sont courts et ne respectent pas les normes de la langue, notamment avec la faible utilisation des majuscules, la tâche devient complexe.
La compétition consiste à identifier 13 types d’entités (personne, artiste musical, organisation, géolocalisation, produit, média, équipe sportive, événement, programme de télévision, film, ligne de transport, nom de bâtiment, autre) dans les tweets. Par exemple, la phrase suivante contient deux types d’entités. Notez qu’une entité peut contenir plusieurs mots.
Jeux de données et évaluation des systèmes
Le jeu d’apprentissage est constitué de 3000 tweets annotés en français avec 12 types d’entités dans le format CoNLL. Le jeu de test contient 3000 tweets supplémentaires.
Les participants sont libres d’utiliser des données externes pour améliorer leur système.
Les systèmes seront évalués en terme de F1-score.
Inscription
Formulaire pour l’inscription
ici.
Attention, pour obtenir les données vous devez remplir le formulaire d'inscription.
Dates importantes
La compétition se déroulera de la manière suivante:
Jeu d’entraînement: 23 janvier 2017
Jeu de test: 19 avril 2017
Résultas et annotations : 3 mai 2017
Description des systèmes : 10 mai 2017
Notification aux auteurs: 24 mai 2017
Version finale : 14 juin 2017
Prix
Un prix de 600€ sera attribué au meilleur système.
Comité d'organisation
- Cédric Lopez, Viseo R&D
- Ioannis Partalas, Viseo R&D
- Nadia Derbas, Viseo R&D
- Frédérique Segond, Viseo R&D
- Georgios Balikas, University Grenoble Alpes
- Massih-Reza Amini, University Grenoble Alpes
- Coralie Reutenauer, SNCF
- Amélie Martin, SNCF
Comité de programme
- Laurent Besacier, LIG (France)
- Christian Boitet, LIG (France)
- Caroline Brun, Xerox (France)
- Xavier Carreras, Xerox (France)
- Luca Dini, Innoradiant (France)
- Dino Ienco, LIRMM (France)
- Diana Inkpen, University of Ottawa (Canada)
- Christiane Fellbaum, Princeton University (USA)
- François Jacquenet, Laboratoire Hubert Curien (France)
- Ioannis Katakis, National and Kapodistrian University of Athens (Greece)
- Makis Malakasiotis, AUEB (Greece)
- Roberto Navigli, Sapienza University of Rome (Italy)
- Damien Nouvel, Inalco (France)
- Mathieu Roche, CIRAD (France)
- Patrick Watrin, CENTAL (Belgique)