Affichage MARC: Unsupervised cross-lingual representation modeling for variable length phrases

Unsupervised cross-lingual representation modeling for variable length phrases

L étude de l extraction de lexiques bilingues à partir de corpus comparables a été souvent circonscrite aux mots simples. Les méthodes classiques ne peuvent gérer les expressions complexes que si elles sont de longueur identique, tandis que les méthodes de plongements de mots modélisent les expressi...

Description complète

Enregistré dans:

Détails bibliographiques
Auteurs principaux :	Liu Jingshu (Auteur), Morin Emmanuel (Directeur de thèse), Besacier Laurent (Président du jury de soutenance, Rapporteur de la thèse), Zweigenbaum Pierre (Rapporteur de la thèse), Peña Saldarriaga Sebastián (Membre du jury), Ferret Olivier (Membre du jury)
Collectivités auteurs :	Université de Nantes 1962-2021 (Organisme de soutenance), École doctorale Mathématiques et sciences et technologies de l'information et de la communication Rennes (Ecole doctorale associée à la thèse), Laboratoire des Sciences du Numérique de Nantes (Laboratoire associé à la thèse)
Format :	Thèse ou mémoire
Langue :	anglais
Titre complet :	Unsupervised cross-lingual representation modeling for variable length phrases / Jingshu Liu; sous la direction de Emmanuel Morin
Publié :	2020
Accès en ligne :	Accès Nantes Université
Note sur l'URL :	Accès au texte intégral
Note de thèse :	Thèse de doctorat : Informatique : Nantes : 2020
Sujets :	Apprentissage non supervisé (intelligence artificielle) Traitement automatique du langage naturel Analyse linguistique ... Thèses et écrits académiques


LEADER	06136clm a2200649 4500
001	PPN251104451
003	http://www.sudoc.fr/251104451
005	20240425055200.0
029			\|a FR \|b 2020NANT4009
033			\|a http://www.theses.fr/2020NANT4009
035			\|a (OCoLC)1237644666
035			\|a STAR136622
100			\|a 20201211d2020 k y0frey0103 ba
101	0		\|a eng \|d fre \|d eng \|2 639-2
102			\|a FR
105			\|a \|\|\|\|ma 00\|yy
135			\|a dr\|\|\|\|\|\|\|\|\|\|\|
181		1	\|6 z01 \|c txt \|2 rdacontent
181		1	\|6 z01 \|a i# \|b xxxe##
182		1	\|6 z01 \|c c \|2 rdamedia
182		1	\|6 z01 \|a b
183		1	\|6 z01 \|a ceb \|2 RDAfrCarrier
200	1		\|a Unsupervised cross-lingual representation modeling for variable length phrases \|f Jingshu Liu \|g sous la direction de Emmanuel Morin
214		1	\|d 2020
230			\|a Données textuelles
304			\|a Titre provenant de l'écran-titre
314			\|a Ecole(s) Doctorale(s) : École doctorale Mathématiques et sciences et technologies de l'information et de la communication (Rennes)
314			\|a Partenaire(s) de recherche : Laboratoire des Sciences du Numérique de Nantes (Laboratoire)
314			\|a Autre(s) contribution(s) : Laurent Besacier (Président du jury) ; Sebastián Peña Saldarriaga, Olivier Ferret (Membre(s) du jury) ; Laurent Besacier, Pierre Zweigenbaum (Rapporteur(s))
328		0	\|b Thèse de doctorat \|c Informatique \|e Nantes \|d 2020
330			\|a L étude de l extraction de lexiques bilingues à partir de corpus comparables a été souvent circonscrite aux mots simples. Les méthodes classiques ne peuvent gérer les expressions complexes que si elles sont de longueur identique, tandis que les méthodes de plongements de mots modélisent les expressions comme une seule unité. Ces dernières nécessitent beaucoup de données, et ne peuvent pas gérer les expressions hors vocabulaire. Dans cette thèse, nous nous intéressons à la modélisation d expressions de longueur variable par co-occurrences et par les méthodes neuronales état de l art. Nous étudions aussi l apprentissage de représentation d expressions supervisé et non-supervisé. Nous proposons deux contributions majeures. Premièrement, une nouvelle architecture appelée tree-free recursive neural network (TFRNN) pour la modélisation d expressions indépendamment de leur longueur. En apprenant à prédire le contexte de l expression à partir de son vecteur encodé, nous surpassons les systèmes état de l art de synonymie monolingue en utilisant seulement le texte brut pour l entraînement. Deuxièmement, pour la modélisation cross-lingue, nous incorporons une architecture dérivée de TF-RNN dans un modèle encodeur-décodeur avec un mécanisme de pseudo contre-traduction inspiré de travaux sur la traduction automatique neurale nonsupervisée. Notre système améliore significativement l alignement bilingue des expressions de longueurs différentes.
330			\|a Significant advances have been achieved in bilingual word-level alignment from comparable corpora, yet the challenge remains for phrase-level alignment. Traditional methods to phrase alignment can only handle phrase of equal length, while word embedding based approaches learn phrase embeddings as individual vocabulary entries suffer from the data sparsity and cannot handle out of vocabulary phrases. Since bilingual alignment is a vector comparison task, phrase representation plays a key role. In this thesis, we study the approaches for unified phrase modeling and cross-lingual phrase alignment, ranging from co-occurrence models to most recent neural state-of-the-art approaches. We review supervised and unsupervised frameworks for modeling cross-lingual phrase representations. Two contributions are proposed in this work. First, a new architecture called tree-free recursive neural network (TF-RNN) for modeling phrases of variable length which, combined with a wrapped context prediction training objective, outperforms the state-of-the-art approaches on monolingual phrase synonymy task with only plain text training data. Second, for cross-lingual modeling, we propose to incorporate an architecture derived from TF-RNN in an encoder-decoder model with a pseudo back translation mechanism inspired by unsupervised neural machine translation. Our proposition improves significantly bilingual alignment of different length phrases.
337			\|a Configuration requise : un logiciel capable de lire un fichier au format : PDF
541	\|		\|a Apprentissage de représentations cross-lingue d expressions de longueur variable \|z fre
606			\|3 PPN236338269 \|a Apprentissage non supervisé (intelligence artificielle) \|2 rameau
606			\|3 PPN027985830 \|a Traitement automatique du langage naturel \|2 rameau
606			\|3 PPN027326462 \|a Analyse linguistique \|2 rameau
608			\|3 PPN027253139 \|a Thèses et écrits académiques \|2 rameau
610	0		\|a ...
676			\|a 006
686			\|a 004 \|2 TEF
700		1	\|3 PPN250889307 \|a Liu \|b Jingshu \|f 1989-.... \|4 070
701		1	\|3 PPN14379373X \|a Morin \|b Emmanuel \|f 1971-.... \|c enseignant-chercheur en informatique \|4 727
701		1	\|3 PPN079377017 \|a Besacier \|b Laurent \|4 956 \|4 958
701		1	\|3 PPN06664268X \|a Zweigenbaum \|b Pierre \|f 1958-.... \|4 958
701		1	\|3 PPN15195822X \|a Peña Saldarriaga \|b Sebastián \|f 1982-.... \|4 555
701		1	\|3 PPN155894498 \|a Ferret \|b Olivier \|f 19..-.... \|c chercheur en ingénierie de la connaissance \|4 555
711	0	2	\|3 PPN026403447 \|a Université de Nantes \|c 1962-2021 \|4 295
711	0	2	\|3 PPN204770424 \|a École doctorale Mathématiques et sciences et technologies de l'information et de la communication \|c Rennes \|4 996
711	0	2	\|3 PPN203637585 \|a Laboratoire des Sciences du Numérique de Nantes \|4 981
801		3	\|a FR \|b Abes \|c 20230302 \|g AFNOR
856	4		\|q PDF \|s 1981397 \|u http://www.theses.fr/2020NANT4009/document \|z Accès au texte intégral
856	4		\|u https://archive.bu.univ-nantes.fr/pollux/show.action?id=08ff132f-7054-4ed8-ac92-28d2227d129a
856	4		\|u http://www.theses.fr/2020NANT4009/abes
930			\|5 441099901:778927504 \|b 441099901 \|j g
991			\|5 441099901:778927504 \|a exemplaire créé automatiquement par STAR
998			\|a 882855

Unsupervised cross-lingual representation modeling for variable length phrases

Documents similaires