Unsupervised cross-lingual representation modeling for variable length phrases

L étude de l extraction de lexiques bilingues à partir de corpus comparables a été souvent circonscrite aux mots simples. Les méthodes classiques ne peuvent gérer les expressions complexes que si elles sont de longueur identique, tandis que les méthodes de plongements de mots modélisent les expressi...

Description complète

Enregistré dans:
Détails bibliographiques
Auteurs principaux : Liu Jingshu (Auteur), Morin Emmanuel (Directeur de thèse), Besacier Laurent (Président du jury de soutenance, Rapporteur de la thèse), Zweigenbaum Pierre (Rapporteur de la thèse), Peña Saldarriaga Sebastián (Membre du jury), Ferret Olivier (Membre du jury)
Collectivités auteurs : Université de Nantes 1962-2021 (Organisme de soutenance), École doctorale Mathématiques et sciences et technologies de l'information et de la communication Rennes (Ecole doctorale associée à la thèse), Laboratoire des Sciences du Numérique de Nantes (Laboratoire associé à la thèse)
Format : Thèse ou mémoire
Langue : anglais
Titre complet : Unsupervised cross-lingual representation modeling for variable length phrases / Jingshu Liu; sous la direction de Emmanuel Morin
Publié : 2020
Accès en ligne : Accès Nantes Université
Note sur l'URL : Accès au texte intégral
Note de thèse : Thèse de doctorat : Informatique : Nantes : 2020
Sujets :
LEADER 06136clm a2200649 4500
001 PPN251104451
003 http://www.sudoc.fr/251104451
005 20240425055200.0
029 |a FR  |b 2020NANT4009 
033 |a http://www.theses.fr/2020NANT4009 
035 |a (OCoLC)1237644666 
035 |a STAR136622 
100 |a 20201211d2020 k y0frey0103 ba 
101 0 |a eng  |d fre  |d eng  |2 639-2 
102 |a FR 
105 |a ||||ma 00|yy 
135 |a dr||||||||||| 
181 1 |6 z01  |c txt  |2 rdacontent 
181 1 |6 z01  |a i#  |b xxxe## 
182 1 |6 z01  |c c  |2 rdamedia 
182 1 |6 z01  |a b 
183 1 |6 z01  |a ceb  |2 RDAfrCarrier 
200 1 |a Unsupervised cross-lingual representation modeling for variable length phrases  |f Jingshu Liu  |g sous la direction de Emmanuel Morin 
214 1 |d 2020 
230 |a Données textuelles 
304 |a Titre provenant de l'écran-titre 
314 |a Ecole(s) Doctorale(s) : École doctorale Mathématiques et sciences et technologies de l'information et de la communication (Rennes) 
314 |a Partenaire(s) de recherche : Laboratoire des Sciences du Numérique de Nantes (Laboratoire) 
314 |a Autre(s) contribution(s) : Laurent Besacier (Président du jury) ; Sebastián Peña Saldarriaga, Olivier Ferret (Membre(s) du jury) ; Laurent Besacier, Pierre Zweigenbaum (Rapporteur(s)) 
328 0 |b Thèse de doctorat  |c Informatique  |e Nantes  |d 2020 
330 |a L étude de l extraction de lexiques bilingues à partir de corpus comparables a été souvent circonscrite aux mots simples. Les méthodes classiques ne peuvent gérer les expressions complexes que si elles sont de longueur identique, tandis que les méthodes de plongements de mots modélisent les expressions comme une seule unité. Ces dernières nécessitent beaucoup de données, et ne peuvent pas gérer les expressions hors vocabulaire. Dans cette thèse, nous nous intéressons à la modélisation d expressions de longueur variable par co-occurrences et par les méthodes neuronales état de l art. Nous étudions aussi l apprentissage de représentation d expressions supervisé et non-supervisé. Nous proposons deux contributions majeures. Premièrement, une nouvelle architecture appelée tree-free recursive neural network (TFRNN) pour la modélisation d expressions indépendamment de leur longueur. En apprenant à prédire le contexte de l expression à partir de son vecteur encodé, nous surpassons les systèmes état de l art de synonymie monolingue en utilisant seulement le texte brut pour l entraînement. Deuxièmement, pour la modélisation cross-lingue, nous incorporons une architecture dérivée de TF-RNN dans un modèle encodeur-décodeur avec un mécanisme de pseudo contre-traduction inspiré de travaux sur la traduction automatique neurale nonsupervisée. Notre système améliore significativement l alignement bilingue des expressions de longueurs différentes. 
330 |a Significant advances have been achieved in bilingual word-level alignment from comparable corpora, yet the challenge remains for phrase-level alignment. Traditional methods to phrase alignment can only handle phrase of equal length, while word embedding based approaches learn phrase embeddings as individual vocabulary entries suffer from the data sparsity and cannot handle out of vocabulary phrases. Since bilingual alignment is a vector comparison task, phrase representation plays a key role. In this thesis, we study the approaches for unified phrase modeling and cross-lingual phrase alignment, ranging from co-occurrence models to most recent neural state-of-the-art approaches. We review supervised and unsupervised frameworks for modeling cross-lingual phrase representations. Two contributions are proposed in this work. First, a new architecture called tree-free recursive neural network (TF-RNN) for modeling phrases of variable length which, combined with a wrapped context prediction training objective, outperforms the state-of-the-art approaches on monolingual phrase synonymy task with only plain text training data. Second, for cross-lingual modeling, we propose to incorporate an architecture derived from TF-RNN in an encoder-decoder model with a pseudo back translation mechanism inspired by unsupervised neural machine translation. Our proposition improves significantly bilingual alignment of different length phrases. 
337 |a Configuration requise : un logiciel capable de lire un fichier au format : PDF 
541 | |a Apprentissage de représentations cross-lingue d expressions de longueur variable  |z fre 
606 |3 PPN236338269  |a Apprentissage non supervisé (intelligence artificielle)  |2 rameau 
606 |3 PPN027985830  |a Traitement automatique du langage naturel  |2 rameau 
606 |3 PPN027326462  |a Analyse linguistique  |2 rameau 
608 |3 PPN027253139  |a Thèses et écrits académiques  |2 rameau 
610 0 |a ... 
676 |a 006 
686 |a 004  |2 TEF 
700 1 |3 PPN250889307  |a Liu  |b Jingshu  |f 1989-....  |4 070 
701 1 |3 PPN14379373X  |a Morin  |b Emmanuel  |f 1971-....  |c enseignant-chercheur en informatique  |4 727 
701 1 |3 PPN079377017  |a Besacier  |b Laurent  |4 956  |4 958 
701 1 |3 PPN06664268X  |a Zweigenbaum  |b Pierre  |f 1958-....  |4 958 
701 1 |3 PPN15195822X  |a Peña Saldarriaga  |b Sebastián  |f 1982-....  |4 555 
701 1 |3 PPN155894498  |a Ferret  |b Olivier  |f 19..-....  |c chercheur en ingénierie de la connaissance  |4 555 
711 0 2 |3 PPN026403447  |a Université de Nantes  |c 1962-2021  |4 295 
711 0 2 |3 PPN204770424  |a École doctorale Mathématiques et sciences et technologies de l'information et de la communication  |c Rennes  |4 996 
711 0 2 |3 PPN203637585  |a Laboratoire des Sciences du Numérique de Nantes  |4 981 
801 3 |a FR  |b Abes  |c 20230302  |g AFNOR 
856 4 |q PDF  |s 1981397  |u http://www.theses.fr/2020NANT4009/document  |z Accès au texte intégral 
856 4 |u https://archive.bu.univ-nantes.fr/pollux/show.action?id=08ff132f-7054-4ed8-ac92-28d2227d129a 
856 4 |u http://www.theses.fr/2020NANT4009/abes 
930 |5 441099901:778927504  |b 441099901  |j g 
991 |5 441099901:778927504  |a exemplaire créé automatiquement par STAR 
998 |a 882855