Découverte et caractérisation des corpus comparables spécialisés

Les corpus comparables rassemblent des textes dans plusieurs langues qui ne sont pas des traductions mais partagent certaines caractéristiques. Ces corpus présentent l avantage d être représentatifs des particularités culturelles et linguistiques de chaque langue. LeWeb peut théoriquement être consi...

Description complète

Enregistré dans:
Détails bibliographiques
Auteurs principaux : Goeuriot Lorraine (Auteur), Daille Béatrice (Directeur de thèse), Morin Emmanuel (Directeur de thèse)
Collectivités auteurs : Université de Nantes 1962-2021 (Organisme de soutenance), Université de Nantes Faculté des sciences et des techniques (Autre partenaire associé à la thèse), École doctorale Sciences et technologies de l'information et mathématiques Nantes (Organisme de soutenance), Laboratoire d Informatique de Nantes Atlantique (UMR 6241) Nantes (Laboratoire associé à la thèse)
Format : Thèse ou mémoire
Langue : français
Titre complet : Découverte et caractérisation des corpus comparables spécialisés / Lorraine Goeuriot; sous la direction de Béatrice Daille; co-encadrant Emmanuel Morin
Publié : [S.l.] : [s.n.] , 2009
Description matérielle : 1 vol. (149 p.)
Condition d'utilisation et de reproduction : Publication autorisée par le jury
Note de thèse : Thèse doctorat : Informatique : Nantes : 2009
Sujets :
Documents associés : Autre format: Découverte et caractérisation des corpus comparables spécialisés
Reproduit comme: Découverte et caractérisation des corpus comparables spécialisés
Particularités de l'exemplaire : BU Sciences, Ex. 1 :
Titre temporairement indisponible à la communication

LEADER 06107cam a2200553 4500
001 PPN143797220
003 http://www.sudoc.fr/143797220
005 20240829055200.0
029 |a FR  |b 2009NANT2026 
035 |a (OCoLC)690333327 
100 |a 20100429d2009 k y0frey0103 ba 
101 0 |a fre  |d fre  |d eng  |2 639-2 
102 |a FR 
105 |a a m 000yy 
106 |a r 
181 |6 z01  |c txt  |2 rdacontent 
181 1 |6 z01  |a i#  |b xxxe## 
182 |6 z01  |c n  |2 rdamedia 
182 1 |6 z01  |a n 
200 1 |a Découverte et caractérisation des corpus comparables spécialisés  |f Lorraine Goeuriot  |g sous la direction de Béatrice Daille  |g co-encadrant Emmanuel Morin 
210 |a [S.l.]  |c [s.n.]  |d 2009 
215 |a 1 vol. (149 p.)  |c ill.  |d 30 cm 
316 |5 441092104:396514944  |a Titre temporairement indisponible à la communication 
320 |a Bibliogr. p. 127-133 
328 |b Thèse doctorat  |c Informatique  |e Nantes  |d 2009 
330 |a Les corpus comparables rassemblent des textes dans plusieurs langues qui ne sont pas des traductions mais partagent certaines caractéristiques. Ces corpus présentent l avantage d être représentatifs des particularités culturelles et linguistiques de chaque langue. LeWeb peut théoriquement être considéré comme un réservoir à corpus comparables mais la qualité des corpus et des ressources qui en sont extraites réside dans la définition préalable des objectifs du corpus et du soin mis à sa composition (les caractéristiques communes aux textes dans le cas des corpus comparables). Notre travail porte sur la constitution de corpus comparables spécialisés en français et japonais dont les documents sont extraits du Web. Nous en proposons une définition et des caractéristiques communes : un domaine de spécialité, un thème et un type de discours (scientifique ou vulgarisé). Notre objectif est de créer un système d aide à la construction de corpus comparables. Nous présentons d abord la reconnaissance automatique des caractéristiques communes du corpus. Le thème peut être détecté grâce aux mots-clés utilisés lors de la recherche. Pour le type de discours nous utilisons les méthodes d apprentissage automatique. Une analyse stylistique sur un corpus d apprentissage nous permet de créer une typologie bilingue composée de trois niveaux d analyse : structurel, modal et lexical. Nous l utilisons ensuite afin d apprendre un modèle de classification avec les systèmes SVMlight et C4.5. Ces modèles sont ensuite évalués sur un corpus d évaluation et permettent de classer correctement plus de 70 % des documents dans les deux langues. Nous intégrons ensuite le classifieur au sein d une chaîne logicielle d aide à la construction de corpus comparables implémentée sur la plateforme UIMA 
330 |a Comparable corpora are sets of texts written in different languages that are not translations of each other but that share common characteristics. Their main advantage is to be fully representative of linguistics and cultural specificities of their respective language. The Web could theoretically be considered as a comparable corpora source. However, the quality of corpora and of their extracted resources depends on the preliminary definition of corpora and on the carefulness of their compilation (i.e. the definition of common features in comparable corpora). In this thesis, we focus on the compilation of specialized comparable corpora in French and Japanese which documents are extracted from the Web. We propose a definition of these corpora and a set of common features: a specialized domain, a topic and a type of discourse (science or popular science). Our goal is to create a tool to assist comparable corpora compilation. First, we present automatic recognition of common features. Topics can be easily identified with keywords used in Web searches. On the contrary, the detection of the type of discourse needs a wide stylistic analysis. This task is performed over a learning corpus, which leads to the creation of a bilingual typology based on three levels of analysis: structural, modal and lexical. Second, we use this typology to learn a classification model with SVMlight and C4.5. This classification model is tested over an evaluation corpus. Our test results indicate that more than 70 % of the documents are well classified. Finally, the classifier is integrated into a comparable corpora compilation assistant tool developed on UIMA system 
371 1 |a Publication autorisée par le jury 
452 | |0 226602931  |t Découverte et caractérisation des corpus comparables spécialisés  |f Lorraine Goeuriot  |d 2010  |c Villeurbanne  |n [CCSD] 
456 | |0 247166464  |t Découverte et caractérisation des corpus comparables spécialisés  |f Lorraine Goeuriot  |d 2009  |c Lille  |n Atelier national de reproduction des thèses  |p Microfiches  |s Lille-thèses 
541 | |a Specialized comparable corpora discovery and characterization  |z eng 
606 |3 PPN132348403  |a Corpus linguistique  |2 rameau 
606 |3 PPN029667356  |a Langues de spécialité  |2 rameau 
606 |3 PPN027258076  |a Typologie linguistique  |2 rameau 
606 |3 PPN027940373  |a Apprentissage automatique  |2 rameau 
608 |3 PPN027253139  |a Thèses et écrits académiques  |2 rameau 
686 |a 004  |2 TEF 
700 1 |3 PPN143794957  |a Goeuriot  |b Lorraine  |f 1983-....  |4 070 
701 1 |3 PPN060702435  |a Daille  |b Béatrice  |4 727 
701 1 |3 PPN14379373X  |a Morin  |b Emmanuel  |f 1971-....  |c enseignant-chercheur en informatique  |4 727 
711 0 2 |3 PPN026403447  |a Université de Nantes  |c 1962-2021  |4 295 
711 0 2 |3 PPN033124884  |a Université de Nantes  |b Faculté des sciences et des techniques  |4 985 
711 0 2 |3 PPN134103211  |a École doctorale Sciences et technologies de l'information et mathématiques  |c Nantes  |4 295 
711 0 2 |3 PPN137062508  |a Laboratoire d Informatique de Nantes Atlantique (UMR 6241)  |c Nantes  |4 981 
801 3 |a FR  |b Abes  |c 20231214  |g AFNOR 
979 |a SCI 
930 |5 441092104:396514944  |b 441092104  |j g 
991 |5 441092104:396514944  |a Exemplaire modifié automatiquement le 18-07-2024 18:43 
998 |a 565525