Affichage MARC: Découverte et caractérisation des corpus comparables spécialisés

Découverte et caractérisation des corpus comparables spécialisés

Les corpus comparables rassemblent des textes dans plusieurs langues qui ne sont pas des traductions mais partagent certaines caractéristiques. Ces corpus présentent l avantage d être représentatifs des particularités culturelles et linguistiques de chaque langue. LeWeb peut théoriquement être consi...

Description complète

Enregistré dans:

Détails bibliographiques
Auteurs principaux :	Goeuriot Lorraine (Auteur), Daille Béatrice (Directeur de thèse), Morin Emmanuel (Directeur de thèse)
Collectivités auteurs :	Université de Nantes 1962-2021 (Organisme de soutenance), Université de Nantes Faculté des sciences et des techniques (Autre partenaire associé à la thèse), École doctorale Sciences et technologies de l'information et mathématiques Nantes (Organisme de soutenance), Laboratoire d Informatique de Nantes Atlantique (UMR 6241) Nantes (Laboratoire associé à la thèse)
Format :	Thèse ou mémoire
Langue :	français
Titre complet :	Découverte et caractérisation des corpus comparables spécialisés / Lorraine Goeuriot; sous la direction de Béatrice Daille; co-encadrant Emmanuel Morin
Publié :	[S.l.] : [s.n.] , 2009
Description matérielle :	1 vol. (149 p.)
Condition d'utilisation et de reproduction :	Publication autorisée par le jury
Note de thèse :	Thèse doctorat : Informatique : Nantes : 2009
Sujets :	Corpus linguistique Langues de spécialité Typologie linguistique Apprentissage automatique Thèses et écrits académiques
Documents associés :	Autre format: Découverte et caractérisation des corpus comparables spécialisés Reproduit comme: Découverte et caractérisation des corpus comparables spécialisés
Particularités de l'exemplaire :	BU Sciences, Ex. 1 : Titre temporairement indisponible à la communication


LEADER	06107cam a2200553 4500
001	PPN143797220
003	http://www.sudoc.fr/143797220
005	20240829055200.0
029			\|a FR \|b 2009NANT2026
035			\|a (OCoLC)690333327
100			\|a 20100429d2009 k y0frey0103 ba
101	0		\|a fre \|d fre \|d eng \|2 639-2
102			\|a FR
105			\|a a m 000yy
106			\|a r
181			\|6 z01 \|c txt \|2 rdacontent
181		1	\|6 z01 \|a i# \|b xxxe##
182			\|6 z01 \|c n \|2 rdamedia
182		1	\|6 z01 \|a n
200	1		\|a Découverte et caractérisation des corpus comparables spécialisés \|f Lorraine Goeuriot \|g sous la direction de Béatrice Daille \|g co-encadrant Emmanuel Morin
210			\|a [S.l.] \|c [s.n.] \|d 2009
215			\|a 1 vol. (149 p.) \|c ill. \|d 30 cm
316			\|5 441092104:396514944 \|a Titre temporairement indisponible à la communication
320			\|a Bibliogr. p. 127-133
328			\|b Thèse doctorat \|c Informatique \|e Nantes \|d 2009
330			\|a Les corpus comparables rassemblent des textes dans plusieurs langues qui ne sont pas des traductions mais partagent certaines caractéristiques. Ces corpus présentent l avantage d être représentatifs des particularités culturelles et linguistiques de chaque langue. LeWeb peut théoriquement être considéré comme un réservoir à corpus comparables mais la qualité des corpus et des ressources qui en sont extraites réside dans la définition préalable des objectifs du corpus et du soin mis à sa composition (les caractéristiques communes aux textes dans le cas des corpus comparables). Notre travail porte sur la constitution de corpus comparables spécialisés en français et japonais dont les documents sont extraits du Web. Nous en proposons une définition et des caractéristiques communes : un domaine de spécialité, un thème et un type de discours (scientifique ou vulgarisé). Notre objectif est de créer un système d aide à la construction de corpus comparables. Nous présentons d abord la reconnaissance automatique des caractéristiques communes du corpus. Le thème peut être détecté grâce aux mots-clés utilisés lors de la recherche. Pour le type de discours nous utilisons les méthodes d apprentissage automatique. Une analyse stylistique sur un corpus d apprentissage nous permet de créer une typologie bilingue composée de trois niveaux d analyse : structurel, modal et lexical. Nous l utilisons ensuite afin d apprendre un modèle de classification avec les systèmes SVMlight et C4.5. Ces modèles sont ensuite évalués sur un corpus d évaluation et permettent de classer correctement plus de 70 % des documents dans les deux langues. Nous intégrons ensuite le classifieur au sein d une chaîne logicielle d aide à la construction de corpus comparables implémentée sur la plateforme UIMA
330			\|a Comparable corpora are sets of texts written in different languages that are not translations of each other but that share common characteristics. Their main advantage is to be fully representative of linguistics and cultural specificities of their respective language. The Web could theoretically be considered as a comparable corpora source. However, the quality of corpora and of their extracted resources depends on the preliminary definition of corpora and on the carefulness of their compilation (i.e. the definition of common features in comparable corpora). In this thesis, we focus on the compilation of specialized comparable corpora in French and Japanese which documents are extracted from the Web. We propose a definition of these corpora and a set of common features: a specialized domain, a topic and a type of discourse (science or popular science). Our goal is to create a tool to assist comparable corpora compilation. First, we present automatic recognition of common features. Topics can be easily identified with keywords used in Web searches. On the contrary, the detection of the type of discourse needs a wide stylistic analysis. This task is performed over a learning corpus, which leads to the creation of a bilingual typology based on three levels of analysis: structural, modal and lexical. Second, we use this typology to learn a classification model with SVMlight and C4.5. This classification model is tested over an evaluation corpus. Our test results indicate that more than 70 % of the documents are well classified. Finally, the classifier is integrated into a comparable corpora compilation assistant tool developed on UIMA system
371	1		\|a Publication autorisée par le jury
452		\|	\|0 226602931 \|t Découverte et caractérisation des corpus comparables spécialisés \|f Lorraine Goeuriot \|d 2010 \|c Villeurbanne \|n [CCSD]
456		\|	\|0 247166464 \|t Découverte et caractérisation des corpus comparables spécialisés \|f Lorraine Goeuriot \|d 2009 \|c Lille \|n Atelier national de reproduction des thèses \|p Microfiches \|s Lille-thèses
541	\|		\|a Specialized comparable corpora discovery and characterization \|z eng
606			\|3 PPN132348403 \|a Corpus linguistique \|2 rameau
606			\|3 PPN029667356 \|a Langues de spécialité \|2 rameau
606			\|3 PPN027258076 \|a Typologie linguistique \|2 rameau
606			\|3 PPN027940373 \|a Apprentissage automatique \|2 rameau
608			\|3 PPN027253139 \|a Thèses et écrits académiques \|2 rameau
686			\|a 004 \|2 TEF
700		1	\|3 PPN143794957 \|a Goeuriot \|b Lorraine \|f 1983-.... \|4 070
701		1	\|3 PPN060702435 \|a Daille \|b Béatrice \|4 727
701		1	\|3 PPN14379373X \|a Morin \|b Emmanuel \|f 1971-.... \|c enseignant-chercheur en informatique \|4 727
711	0	2	\|3 PPN026403447 \|a Université de Nantes \|c 1962-2021 \|4 295
711	0	2	\|3 PPN033124884 \|a Université de Nantes \|b Faculté des sciences et des techniques \|4 985
711	0	2	\|3 PPN134103211 \|a École doctorale Sciences et technologies de l'information et mathématiques \|c Nantes \|4 295
711	0	2	\|3 PPN137062508 \|a Laboratoire d Informatique de Nantes Atlantique (UMR 6241) \|c Nantes \|4 981
801		3	\|a FR \|b Abes \|c 20231214 \|g AFNOR
979			\|a SCI
930			\|5 441092104:396514944 \|b 441092104 \|j g
991			\|5 441092104:396514944 \|a Exemplaire modifié automatiquement le 18-07-2024 18:43
998			\|a 565525

Découverte et caractérisation des corpus comparables spécialisés

Documents similaires