Découverte et caractérisation des corpus comparables spécialisés

Les corpus comparables rassemblent des textes dans plusieurs langues qui ne sont pas des traductions mais partagent certaines caractéristiques. Ces corpus présentent l avantage d être représentatifs des particularités culturelles et linguistiques de chaque langue. LeWeb peut théoriquement être consi...

Description complète

Enregistré dans:
Détails bibliographiques
Auteurs principaux : Goeuriot Lorraine (Auteur), Daille Béatrice (Directeur de thèse), Morin Emmanuel (Directeur de thèse)
Collectivités auteurs : Université de Nantes 1962-2021 (Organisme de soutenance), Université de Nantes Faculté des sciences et des techniques (Autre partenaire associé à la thèse), École doctorale Sciences et technologies de l'information et mathématiques Nantes (Organisme de soutenance), Laboratoire d Informatique de Nantes Atlantique (UMR 6241) Nantes (Laboratoire associé à la thèse)
Format : Thèse ou mémoire
Langue : français
Titre complet : Découverte et caractérisation des corpus comparables spécialisés / Lorraine Goeuriot; sous la direction de Béatrice Daille; co-encadrant Emmanuel Morin
Publié : [S.l.] : [s.n.] , 2009
Description matérielle : 1 vol. (149 p.)
Condition d'utilisation et de reproduction : Publication autorisée par le jury
Note de thèse : Thèse doctorat : Informatique : Nantes : 2009
Sujets :
Documents associés : Autre format: Découverte et caractérisation des corpus comparables spécialisés
Reproduit comme: Découverte et caractérisation des corpus comparables spécialisés
Particularités de l'exemplaire : BU Sciences, Ex. 1 :
Titre temporairement indisponible à la communication

Description
Résumé : Les corpus comparables rassemblent des textes dans plusieurs langues qui ne sont pas des traductions mais partagent certaines caractéristiques. Ces corpus présentent l avantage d être représentatifs des particularités culturelles et linguistiques de chaque langue. LeWeb peut théoriquement être considéré comme un réservoir à corpus comparables mais la qualité des corpus et des ressources qui en sont extraites réside dans la définition préalable des objectifs du corpus et du soin mis à sa composition (les caractéristiques communes aux textes dans le cas des corpus comparables). Notre travail porte sur la constitution de corpus comparables spécialisés en français et japonais dont les documents sont extraits du Web. Nous en proposons une définition et des caractéristiques communes : un domaine de spécialité, un thème et un type de discours (scientifique ou vulgarisé). Notre objectif est de créer un système d aide à la construction de corpus comparables. Nous présentons d abord la reconnaissance automatique des caractéristiques communes du corpus. Le thème peut être détecté grâce aux mots-clés utilisés lors de la recherche. Pour le type de discours nous utilisons les méthodes d apprentissage automatique. Une analyse stylistique sur un corpus d apprentissage nous permet de créer une typologie bilingue composée de trois niveaux d analyse : structurel, modal et lexical. Nous l utilisons ensuite afin d apprendre un modèle de classification avec les systèmes SVMlight et C4.5. Ces modèles sont ensuite évalués sur un corpus d évaluation et permettent de classer correctement plus de 70 % des documents dans les deux langues. Nous intégrons ensuite le classifieur au sein d une chaîne logicielle d aide à la construction de corpus comparables implémentée sur la plateforme UIMA
Comparable corpora are sets of texts written in different languages that are not translations of each other but that share common characteristics. Their main advantage is to be fully representative of linguistics and cultural specificities of their respective language. The Web could theoretically be considered as a comparable corpora source. However, the quality of corpora and of their extracted resources depends on the preliminary definition of corpora and on the carefulness of their compilation (i.e. the definition of common features in comparable corpora). In this thesis, we focus on the compilation of specialized comparable corpora in French and Japanese which documents are extracted from the Web. We propose a definition of these corpora and a set of common features: a specialized domain, a topic and a type of discourse (science or popular science). Our goal is to create a tool to assist comparable corpora compilation. First, we present automatic recognition of common features. Topics can be easily identified with keywords used in Web searches. On the contrary, the detection of the type of discourse needs a wide stylistic analysis. This task is performed over a learning corpus, which leads to the creation of a bilingual typology based on three levels of analysis: structural, modal and lexical. Second, we use this typology to learn a classification model with SVMlight and C4.5. This classification model is tested over an evaluation corpus. Our test results indicate that more than 70 % of the documents are well classified. Finally, the classifier is integrated into a comparable corpora compilation assistant tool developed on UIMA system
Variantes de titre : Specialized comparable corpora discovery and characterization
Bibliographie : Bibliogr. p. 127-133