Évaluation en extraction de lexiques bilingues à partir de corpus comparables

L extraction de lexique bilingue (BLI) a pour objectif la création, de manière automatique à partir de corpus bilingues, de lexiques entre deux langues. Le BLI est utilisé le plus souvent en domaine général, où les lexiques extraits peuvent par exemple servir en traduction automatique ou en recherch...

Description complète

Enregistré dans:
Détails bibliographiques
Auteurs principaux : Laville Martin (Auteur), Morin Emmanuel (Directeur de thèse), Langlais Philippe (Directeur de thèse), Zweigenbaum Pierre (Président du jury de soutenance), Gaussier Éric (Rapporteur de la thèse), Apidianaki Marianna (Rapporteur de la thèse)
Collectivités auteurs : Nantes Université 2022-.... (Organisme de soutenance), École doctorale Mathématiques et Sciences et Technologies du numérique, de l Information et de la Communication Nantes 2022-.... (Ecole doctorale associée à la thèse), Laboratoire des Sciences du Numérique de Nantes (Laboratoire associé à la thèse)
Format : Thèse ou mémoire
Langue : français
Titre complet : Évaluation en extraction de lexiques bilingues à partir de corpus comparables / Martin Laville; sous la direction de Emmanuel Morin et de Philippe Langlais
Publié : 2023
Accès en ligne : Accès Nantes Université
Note sur l'URL : Accès au texte intégral
Note de thèse : Thèse de doctorat : Informatique : Nantes Université : 2023
Sujets :
Description
Résumé : L extraction de lexique bilingue (BLI) a pour objectif la création, de manière automatique à partir de corpus bilingues, de lexiques entre deux langues. Le BLI est utilisé le plus souvent en domaine général, où les lexiques extraits peuvent par exemple servir en traduction automatique ou en recherche d information. Les systèmes de BLI fonctionnent alors sur de grandes quantités de données et les résultats semblent hautement satisfaisants. Cependant, les données d évaluation contiennent de nombreuses erreurs, ce qui pourrait conduire à une remise en question des systèmes. Un second contexte d utilisation plus marginal du BLI est celui des domaines de spécialité, où l objectif est l obtention de traductions absentes des dictionnaires classiques. Les corpus spécialisés (qui ne concernent qu un seul sujet) sont peu fournis en données et il est compliqué pour les systèmes de BLI d obtenir d aussi bons résultats qu en domaine général. Il faut donc chercher à adapter les approches pour prendre en compte cette particularité. Dans cette thèse, nous améliorons les résultats obtenus en BLI en domaine de spécialité en proposant l utilisation de techniques de sélection de données. Puis, nous nous intéressons au processus d évaluation en domaine général et plus particulièrement à certains biais présents dans les données d évaluation comme la surprésence de paires de mots très fréquents ou graphiquement identiques et proposons un processus d évaluation plus précis et unifié qui prend en compte ces faiblesses dans les données.
Bilingual lexicon extraction (BLI) has as its objective the creation, in an automatic manner from bilingual corpora, of lexicons between two languages. It is most often used in the general domain, where the extracted lexicons can be used in machine translation or information retrieval. BLI systems work on large amounts of data and the results seem to be highly satisfactory. However, the evaluation data contains many errors, which could lead to a re-evaluation of the systems. A second and more marginal context of use of BLI systems is in specialized domains, where the objective is to obtain translations that are not available in classical dictionaries. Specialized corpora (about only one subject) are poorly supplied with data and it is complicated for BLI systems to obtain as good results as in the general domain. It is therefore necessary to adapt the approaches to take into account this particularity. In this thesis, we improve the results obtained in specialized domains by proposing the use of data selection techniques. Then, we focus on the evaluation process in general domain and more particularly on some biases present in evaluation data such as the overpresence of very frequent or graphically identical word pairs and we propose a more accurate and unified evaluation process that takes into account these weaknesses.
Variantes de titre : Evaluating bilingual lexicon induction using comparable corpora
Notes : Titre provenant de l'écran-titre
Ecole(s) Doctorale(s) : École Doctorale Mathématiques et Sciences et Technologies du numérique, de l Information et de la Communication (Nantes)
Partenaire(s) de recherche : Laboratoire des Sciences du Numérique de Nantes (Laboratoire)
Autre(s) contribution(s) : Pierre Zweigenbaum (Président du jury) ; Éric Gaussier, Marianna Apidianaki (Rapporteur(s))
Configuration requise : Configuration requise : un logiciel capable de lire un fichier au format : PDF