Extraction de lexiques bilingues à partir de corpus comparables

La plupart des travaux en acquisition de lexiques bilingues à partir de corpus comparables reposent sur l'hypothèse distributionnelle qui a été étendue au scénario bilingue. Deux mots ont de fortes chances d'être en relation de traduction s'ils apparaissent dans les mêmes contextes le...

Description complète

Enregistré dans:
Détails bibliographiques
Auteurs principaux : Hazem Amir (Auteur), Morin Emmanuel (Directeur de thèse)
Collectivités auteurs : Université de Nantes 1962-2021 (Organisme de soutenance), Université de Nantes Faculté des sciences et des techniques (Organisme de soutenance), École doctorale Sciences et technologies de l'information et mathématiques Nantes (Organisme de soutenance)
Format : Thèse ou mémoire
Langue : français
Titre complet : Extraction de lexiques bilingues à partir de corpus comparables / Amir Hazem; sous la direction de Emmanuel Morin
Publié : [S.l.] : [s.n.] , 2013
Accès en ligne : Accès Nantes Université
Note de thèse : Thèse de doctorat : Informatique, Traitement automatique du langage naturel : Nantes : 2013
Sujets :
Documents associés : Reproduction de: Extraction de lexiques bilingues à partir de corpus comparables
Description
Résumé : La plupart des travaux en acquisition de lexiques bilingues à partir de corpus comparables reposent sur l'hypothèse distributionnelle qui a été étendue au scénario bilingue. Deux mots ont de fortes chances d'être en relation de traduction s'ils apparaissent dans les mêmes contextes lexicaux. Ce postulat suppose donc une définition claire et rigoureuse du contexte et une connaissance parfaite des indices contextuels. Or, la complexité et les spécificités de chaque langue font qu'il n'est pas aisé d'énoncer une telle définition qui garantisse une extraction de couples de traductions, efficace dans tous les cas de figure. Toute la dffculté réside dans la manière de définir, d'extraire et de comparer ces contextes dans le but de construire des lexiques bilingues fiables. Nous nous efforcerons tout au long des différents chapitres de cette thèse à essayer de mieux comprendre cette notion de contexte, pour ensuite l'étendre et l'adapter afin d'améliorer la qualité des lexiques bilingues. Une première partie des contributions vise à améliorer l'approche directe qui fait office de référence dans la communauté. Nous proposerons plusieurs manières d'aborder le contexte des mots pour mieux les caractériser. Dans la deuxième partie des contributions, nous commencerons par présenter une approche qui vise à améliorer l'approche par similarité inter-langue. Ensuite, une méthode nommée Q-Align, directement inspirée des systèmes de question/réponse sera présentée. Enfin, nous présenterons plusieurs transformations mathématiques et donc plusieurs représentations vectorielles, pour nous concentrer essentiellement sur celles que nous aurons choisi pour développer une nouvelle méthode d'alignement.
Most work in bilingual lexicon acquisition from comparable corpora are based on the distributional hypothesis that has been extended to the bilingual scenario. Hence, two words are more likely to be translation of each other if they appear in the same lexical contexts. This assumption presupposes a clear and rigorous definition of context and a thorough knowledge of contextual clues. However, the complexity and speci_city of each language make the formulation of such a definition that ensures effective extraction of translation pairs in all cases not easy. All the diffculty lies in how to define, extract and compare these contexts in order to build reliable bilingual lexicons. We strive throughout the different chapters of this thesis to try to understand this notion of context, and then extend and adapt it to improve the quality of bilingual lexicons. The first part of contributions aims at improving the standard approach considered as a baseline in the community. Thus, we propose several ways to consider the context for better words characterization. In the second part of the contributions, we first present an approach that aims to improve the extended approach. Then, a method called QAlign directly inspired from question/answering systems is presented. Finally, we present several mathematical transforms and thus multiple vector space representations to focus primarily on the ones we have chosen to develop a new alignment method.
Variantes de titre : Bilingual lexicon extraction from comparable corpora
Bibliographie : Références bibliographiques