Voir cette page en anglais

La thèse est disponible sur TEL archives.

Ma thèse : “La structuration dans les entités nommées”

Cette thèse CIFRE a été réalisée en partenariat avec l’entreprise Expert System France (ex TEMIS).

Jury de thèse

Soutenance

Thèse soutenue le 23 Novembre 2017 à 14h. Avis de soutenance

Résumé

La reconnaissance des entités nommées est une discipline cruciale du domaine du TAL. Elle sert à l’extraction de relations entre entités nommées, ce qui permet la construction d’une base de connaissances (Surdeanu and Ji, 2014), le résumé automatique (Nobata et al., 2002), etc. Nous nous intéressons ici aux phénomènes de structurations qui les entourent.

Nous distinguons tout d’abord deux types d’éléments structurels dans une entité nommée. Les premiers sont des sous-chaînes récurrentes, que nous appellerons les affixes caractéristiques d’une entité nommée. Le second type d’éléments est les tokens ayant un fort pouvoir discriminant, appelés des tokens déclencheurs. Nous détaillerons l’algorithme que nous avons mis en place pour extraire les affixes caractéristiques, que nous comparerons à Morfessor (Creutz and Lagus, 2005b). Nous appliquerons ensuite notre méthode pour extraire les tokens déclencheurs, utilisés pour l’extraction d’entités nommées du français et d’adresses postales.

Une autre forme de structuration pour les entités nommées est de nature syntaxique, d’imbrications ou arborée. Pour identifier automatiquement cette structuration, nous proposons un type de cascade d’étiqueteurs linéaires qui n’avait jusqu’à présent jamais été utilisé pour la reconnaissance d’entités nommées. Elles généralisent les approches précédentes qui sont capables de reconnaître uniquement des entités de profondeur limitée ou qui ne peuvent pas modéliser certaines particularités des entités nommées structurées.

Tout au long de cette thèse, nous comparons deux méthodes par apprentissage automatique, à savoir les CRF et les réseaux de neurones, dont nous présenterons les avantages et inconvénients.

Mots-clés