CAp 2017 - Conférence sur l'Apprentissage Automatique

Reconnaissance d’entités nommées dans les Tweets

La Reconnaissance d’Entités Nommées (REN) consiste à classer des segments de texte dans des catégories prédéfinies telles que “personne”, “organisation”, ou “lieu”. Les systèmes de REN atteignent de bons résultats lorsqu’il s’agit de traiter un nombre restreint d’entités, d’autant plus lorsque les textes respectent les normes de la langue. Cependant, dans des applications telles que Twitter où les textes sont courts et ne respectent pas les normes de la langue, notamment avec la faible utilisation des majuscules, la tâche devient complexe.

La compétition consiste à identifier 13 types d’entités (personne, artiste musical, organisation, géolocalisation, produit, média, équipe sportive, événement, programme de télévision, film, ligne de transport, nom de bâtiment, autre) dans les tweets. Par exemple, la phrase suivante contient deux types d’entités. Notez qu’une entité peut contenir plusieurs mots.

Jeux de données et évaluation des systèmes

Le jeu d’apprentissage est constitué de 3000 tweets annotés en français avec 12 types d’entités dans le format CoNLL. Le jeu de test contient 3000 tweets supplémentaires. Les participants sont libres d’utiliser des données externes pour améliorer leur système. Les systèmes seront évalués en terme de F1-score.

Inscription

Formulaire pour l’inscription ici.
Attention, pour obtenir les données vous devez remplir le formulaire d'inscription.

Dates importantes

La compétition se déroulera de la manière suivante:

~~Jeu d’entraînement: 23 janvier 2017~~
~~Jeu de test: 19 avril 2017~~
~~Résultas et annotations : 3 mai 2017~~

Classement des systèmes

Rang	Système	Mesure-F	Précision	Rappel
1	Synapse Développement	58.89	73.65	49.06
2	High Institute of Technology - Agadir	52.19	58.95	46.83
3	TanDam	51.99	60.67	45.48
4	NER_Quebec	51.26	67.65	41.26
5	Swiss Chocolate	50.05	56.42	44.97
6	AMU-LIF	46.21	53.59	40.63
7	Lattice	45.46	78.76	31.95
8	Geolsemantics	21.28	19.66	23.18

~~Description des systèmes : 10 mai 2017~~
~~Notification aux auteurs: 24 mai 2017~~
~~Version finale : 14 juin 2017~~

Prix

Un prix de 600€ sera attribué au meilleur système.

Comité d'organisation

Cédric Lopez, Viseo R&D
Ioannis Partalas, Viseo R&D
Nadia Derbas, Viseo R&D
Frédérique Segond, Viseo R&D
Georgios Balikas, University Grenoble Alpes
Massih-Reza Amini, University Grenoble Alpes
Coralie Reutenauer, SNCF
Amélie Martin, SNCF

Comité de programme

Laurent Besacier, LIG (France)
Christian Boitet, LIG (France)
Caroline Brun, Xerox (France)
Xavier Carreras, Xerox (France)
Luca Dini, Innoradiant (France)
Dino Ienco, LIRMM (France)
Diana Inkpen, University of Ottawa (Canada)
Christiane Fellbaum, Princeton University (USA)
François Jacquenet, Laboratoire Hubert Curien (France)
Ioannis Katakis, National and Kapodistrian University of Athens (Greece)
Makis Malakasiotis, AUEB (Greece)
Roberto Navigli, Sapienza University of Rome (Italy)
Damien Nouvel, Inalco (France)
Mathieu Roche, CIRAD (France)
Patrick Watrin, CENTAL (Belgique)