Acquisition de grammaires lexicalisées pour les langues naturelles

L'inférence grammaticale désigne le problème qui consiste à découvrir les règles de formation des phrases d'un langage, c'est-à-dire une grammaire de celui-ci. Dans le modèle d'apprentissage de Gold, les exemples fournis sont constitués uniquement des phrases appartenant au langa...

Description complète

Enregistré dans:
Détails bibliographiques
Auteur principal : Moreau Erwan (Auteur)
Collectivités auteurs : Université de Nantes 1962-2021 (Organisme de soutenance), École doctorale sciences et technologies de l'information et des matériaux Nantes (Organisme de soutenance)
Autres auteurs : Dikovsky Alexandre (Directeur de thèse), Retoré Christian (Directeur de thèse)
Format : Thèse ou mémoire
Langue : français
Titre complet : Acquisition de grammaires lexicalisées pour les langues naturelles / Erwan Moreau; Alexandre Dikovsky, directeur de thèse ; Christian Retoré, co-encadrant
Publié : [S.l.] : [s.n.] , 2006
Accès en ligne : Accès Nantes Université
Note de thèse : Thèse doctorat : Informatique : Nantes : 2006
Sujets :
Documents associés : Reproduction de: Acquisition de grammaires lexicalisées pour les langues naturelles
Description
Résumé : L'inférence grammaticale désigne le problème qui consiste à découvrir les règles de formation des phrases d'un langage, c'est-à-dire une grammaire de celui-ci. Dans le modèle d'apprentissage de Gold, les exemples fournis sont constitués uniquement des phrases appartenant au langage. L'algorithme doit fournir une grammaire qui représente le langage énuméré. Les grammaires catégorielles sont l'un des nombreux formalismes existants pour représenter des langages. Kanazawa a montré que certaines sous-classes de ces grammaires sont apprenables, mais ses résultats ne sont pas applicables directement aux langues naturelles. Sur le plan théorique, nous proposons de généraliser les résultats de Kanazawa à différents types de grammaires. Les grammaires combinatoires générales sont un modèle flexible permettant de définir des systèmes grammaticaux à base de règles de réécriture. Nous démontrons dans ce cadre que certaines classes de langages sont apprenables. Dans un souci de généralité maximale, nos résultats sont exprimés sous forme de critères sur les règles des systèmes grammaticaux considérés. Ces résultats sont appliqués à plusieurs formalismes relativement adaptés à la représentation des langues naturelles.Nous abordons également le problème de la mise en oeuvre de l'apprentissage sur des données réelles. En effet, les algorithmes existants capables d'apprendre des classes de langages intéressantes sont NP-complets. Afin de contourner cet obstacle, nous proposons un cadre d'apprentissage plus souple, l'apprentissage partiel : le contexte d'utilisation est modifié dans le but d'obtenir une complexité algorithmique plus réaliste. Nous testons cette approche sur des données de taille moyenne, et obtenons des résultats plutôt encourageants.
Bibliographie : 110 références bibliographiques