Extraction d'information et modélisation de connaissances à partir de notes de communication orale

Le travail présenté dans cette thèse porte sur l'Extraction d'Informations à partir de textes non-standards. Les textes non-standards sont des textes qui divergent syntaxiquement et lexicalement des normes usuelles de la langue (petites-annonces, comptes-rendus de conversations orales, etc...

Description complète

Enregistré dans:
Détails bibliographiques
Auteur principal : Even Fabrice (Auteur)
Collectivités auteurs : Université de Nantes 1962-2021 (Organisme de soutenance), École doctorale sciences et technologies de l'information et des matériaux Nantes (Ecole doctorale associée à la thèse)
Autres auteurs : Mouaddib Noureddine (Directeur de thèse), Enguehard Chantal (Directeur de thèse)
Format : Thèse ou mémoire
Langue : français
Titre complet : Extraction d'information et modélisation de connaissances à partir de notes de communication orale / Fabrice Even; Noureddine Mouaddib, directeur de thèse : Chantal Enguehard, co-encadrante
Publié : [S.l.] : [s.n.] , 2005
Description matérielle : 1 vol. (229 p.)
Note de thèse : Thèse doctorat : Informatique : Nantes : 2005
Disponibilité : Publication autorisée par le jury
Sujets :
Description
Résumé : Le travail présenté dans cette thèse porte sur l'Extraction d'Informations à partir de textes non-standards. Les textes non-standards sont des textes qui divergent syntaxiquement et lexicalement des normes usuelles de la langue (petites-annonces, comptes-rendus de conversations orales, etc.) et possèdent souvent un contenu informatif très important (textes généralement issus d'entreprises). Néanmoins les systèmes traditionnels d'Extraction d'Information s'avèrent quasi-inopérants sur de tels textes. L'absence d'intérêt pour ces textes et la non prise en compte de leurs spécificités dans les recherches en TAL est à l'origine de l'inefficacité des systèmes actuels d'Extraction d'Information. Ces constats nous ont incités à nous pencher sur de tels documents du point de vue de l'extraction d'informations. Nous proposons la méthode MeGET (Méthode Générique d'Extraction d'informations à partir de Textes), une solution fondée sur une modélisation les connaissances contenues dans les textes et intéressantes du point de vue des informations à extraire. Le modèle (ontologie d'extraction) est construit en unifiant une ontologie des besoins décrivant les informations à extraire avec une ontologie des termes conceptualisant les termes du corpus en relation avec les informations recherchées. Le modèle est représenté par des règles de grammaire au formalisme simple et facilement exploitable par un système automatique. L'extraction des informations à partir du texte est réalisé via le système d'extraction SyGET (Système Générique d'Extraction d'informations à partir de Textes) qui procède à un étiquetage marquant dans les textes les instances des éléments de l'ontologie. Ces balises permettent de repérer les informations recherchées.
This work focuses on information extraction from non-standard texts. Non-standard texts are textual documents that do not respect usual formatting rules (syntactical or lexical rules). These texts have often a rich informational content. However, usual natural language or knowledge extraction techniques do not give satisfactory results on them, because the lack of interest from Natural Language researches for this type of texts. This reality leads our interest for the problem of extracting information from this type of texts. We present MeGET, an information extraction method based on a knowledge model constructed in function of the information to be extracted. The model (extraction ontology) is obtained by unification of a needs ontology describing information to extract with a terms ontology modelling corpus terms related to the information to extract. This model is formalized into a grammar with a formalism that can be easily used in a automatic process. Information extraction is proceeding by the SyGET system that puts tag from each ontology elements instances found in the texts. The information is then extracted by using the tags.
Bibliographie : Bibliographie p. 193-212