Reconnaissance d’entités nommées dans les Tweets


La Reconnaissance d’Entités Nommées (REN) consiste à classer des segments de texte dans des catégories prédéfinies telles que “personne”, “organisation”, ou “lieu”. Les systèmes de REN atteignent de bons résultats lorsqu’il s’agit de traiter un nombre restreint d’entités, d’autant plus lorsque les textes respectent les normes de la langue. Cependant, dans des applications telles que Twitter où les textes sont courts et ne respectent pas les normes de la langue, notamment avec la faible utilisation des majuscules, la tâche devient complexe.

La compétition consiste à identifier 13 types d’entités (personne, artiste musical, organisation, géolocalisation, produit, média, équipe sportive, événement, programme de télévision, film, ligne de transport, nom de bâtiment, autre) dans les tweets. Par exemple, la phrase suivante contient deux types d’entités. Notez qu’une entité peut contenir plusieurs mots.

competition


Jeux de données et évaluation des systèmes

Le jeu d’apprentissage est constitué de 3000 tweets annotés en français avec 12 types d’entités dans le format CoNLL. Le jeu de test contient 3000 tweets supplémentaires. Les participants sont libres d’utiliser des données externes pour améliorer leur système. Les systèmes seront évalués en terme de F1-score.

Inscription

Formulaire pour l’inscription ici.
Attention, pour obtenir les données vous devez remplir le formulaire d'inscription.

Dates importantes

La compétition se déroulera de la manière suivante:

Prix

Un prix de 600€ sera attribué au meilleur système.

Comité d'organisation



Comité de programme