Évaluation en extraction de lexiques bilingues à partir de corpus comparables

L extraction de lexique bilingue (BLI) a pour objectif la création, de manière automatique à partir de corpus bilingues, de lexiques entre deux langues. Le BLI est utilisé le plus souvent en domaine général, où les lexiques extraits peuvent par exemple servir en traduction automatique ou en recherch...

Description complète

Enregistré dans:
Détails bibliographiques
Auteurs principaux : Laville Martin (Auteur), Morin Emmanuel (Directeur de thèse), Langlais Philippe (Directeur de thèse), Zweigenbaum Pierre (Président du jury de soutenance), Gaussier Éric (Rapporteur de la thèse), Apidianaki Marianna (Rapporteur de la thèse)
Collectivités auteurs : Nantes Université 2022-.... (Organisme de soutenance), École doctorale Mathématiques et Sciences et Technologies du numérique, de l Information et de la Communication Nantes 2022-.... (Ecole doctorale associée à la thèse), Laboratoire des Sciences du Numérique de Nantes (Laboratoire associé à la thèse)
Format : Thèse ou mémoire
Langue : français
Titre complet : Évaluation en extraction de lexiques bilingues à partir de corpus comparables / Martin Laville; sous la direction de Emmanuel Morin et de Philippe Langlais
Publié : 2023
Accès en ligne : Accès Nantes Université
Note sur l'URL : Accès au texte intégral
Note de thèse : Thèse de doctorat : Informatique : Nantes Université : 2023
Sujets :
LEADER 05928nlm a2200637 4500
001 PPN270264450
003 http://www.sudoc.fr/270264450
005 20240523055400.0
029 |a FR  |b 2023NANU4009 
033 |a http://www.theses.fr/2023NANU4009 
035 |a STAR197626 
100 |a 20230602d2023 k y0frey0103 ba 
101 0 |a fre  |d fre  |d eng  |2 639-2 
102 |a FR 
105 |a ||||ma 00|yy 
135 |a dr||||||||||| 
181 |6 z01  |c txt  |2 rdacontent 
181 1 |6 z01  |a i#  |b xxxe## 
182 |6 z01  |c c  |2 rdamedia 
182 1 |6 z01  |a b 
183 |6 z01  |a ceb  |2 RDAfrCarrier 
200 1 |a Évaluation en extraction de lexiques bilingues à partir de corpus comparables  |f Martin Laville  |g sous la direction de Emmanuel Morin et de Philippe Langlais 
214 1 |d 2023 
230 |a Données textuelles 
304 |a Titre provenant de l'écran-titre 
314 |a Ecole(s) Doctorale(s) : École Doctorale Mathématiques et Sciences et Technologies du numérique, de l Information et de la Communication (Nantes) 
314 |a Partenaire(s) de recherche : Laboratoire des Sciences du Numérique de Nantes (Laboratoire) 
314 |a Autre(s) contribution(s) : Pierre Zweigenbaum (Président du jury) ; Éric Gaussier, Marianna Apidianaki (Rapporteur(s)) 
328 0 |b Thèse de doctorat  |c Informatique  |e Nantes Université  |d 2023 
330 |a L extraction de lexique bilingue (BLI) a pour objectif la création, de manière automatique à partir de corpus bilingues, de lexiques entre deux langues. Le BLI est utilisé le plus souvent en domaine général, où les lexiques extraits peuvent par exemple servir en traduction automatique ou en recherche d information. Les systèmes de BLI fonctionnent alors sur de grandes quantités de données et les résultats semblent hautement satisfaisants. Cependant, les données d évaluation contiennent de nombreuses erreurs, ce qui pourrait conduire à une remise en question des systèmes. Un second contexte d utilisation plus marginal du BLI est celui des domaines de spécialité, où l objectif est l obtention de traductions absentes des dictionnaires classiques. Les corpus spécialisés (qui ne concernent qu un seul sujet) sont peu fournis en données et il est compliqué pour les systèmes de BLI d obtenir d aussi bons résultats qu en domaine général. Il faut donc chercher à adapter les approches pour prendre en compte cette particularité. Dans cette thèse, nous améliorons les résultats obtenus en BLI en domaine de spécialité en proposant l utilisation de techniques de sélection de données. Puis, nous nous intéressons au processus d évaluation en domaine général et plus particulièrement à certains biais présents dans les données d évaluation comme la surprésence de paires de mots très fréquents ou graphiquement identiques et proposons un processus d évaluation plus précis et unifié qui prend en compte ces faiblesses dans les données. 
330 |a Bilingual lexicon extraction (BLI) has as its objective the creation, in an automatic manner from bilingual corpora, of lexicons between two languages. It is most often used in the general domain, where the extracted lexicons can be used in machine translation or information retrieval. BLI systems work on large amounts of data and the results seem to be highly satisfactory. However, the evaluation data contains many errors, which could lead to a re-evaluation of the systems. A second and more marginal context of use of BLI systems is in specialized domains, where the objective is to obtain translations that are not available in classical dictionaries. Specialized corpora (about only one subject) are poorly supplied with data and it is complicated for BLI systems to obtain as good results as in the general domain. It is therefore necessary to adapt the approaches to take into account this particularity. In this thesis, we improve the results obtained in specialized domains by proposing the use of data selection techniques. Then, we focus on the evaluation process in general domain and more particularly on some biases present in evaluation data such as the overpresence of very frequent or graphically identical word pairs and we propose a more accurate and unified evaluation process that takes into account these weaknesses. 
337 |a Configuration requise : un logiciel capable de lire un fichier au format : PDF 
541 | |a Evaluating bilingual lexicon induction using comparable corpora  |z eng 
606 |3 PPN027431819  |a Traduction automatique  |2 rameau 
606 |3 PPN031455867  |a Plongements (mathématiques)  |2 rameau 
608 |3 PPN027253139  |a Thèses et écrits académiques  |2 rameau 
610 0 |a Corpus bilingues 
610 0 |a Corpus spécialisés 
610 0 |a Jeux de données 
686 |a 004  |2 TEF 
700 1 |3 PPN270256334  |a Laville  |b Martin  |f 1995-....  |4 070 
701 1 |3 PPN14379373X  |a Morin  |b Emmanuel  |f 1971-....  |c enseignant-chercheur en informatique  |4 727 
701 1 |3 PPN079116620  |a Langlais  |b Philippe  |4 727 
701 1 |3 PPN06664268X  |a Zweigenbaum  |b Pierre  |f 1958-....  |4 956 
701 1 |3 PPN074308297  |a Gaussier  |b Éric  |4 958 
701 1 |3 PPN128505680  |a Apidianaki  |b Marianna  |f 1976-....  |4 958 
711 0 2 |3 PPN258086599  |a Nantes Université  |c 2022-....  |4 295 
711 0 2 |3 PPN268274525  |a École doctorale Mathématiques et Sciences et Technologies du numérique, de l Information et de la Communication  |c Nantes  |c 2022-....  |4 996 
711 0 2 |3 PPN203637585  |a Laboratoire des Sciences du Numérique de Nantes  |4 981 
801 3 |a FR  |b Abes  |c 20230602  |g AFNOR 
856 4 |q PDF  |s 3169022  |u http://www.theses.fr/2023NANU4009/document  |z Accès au texte intégral 
856 4 |u http://www.theses.fr/2023NANU4009/abes 
856 4 |u https://tel.archives-ouvertes.fr/tel-04115427 
930 |5 441099901:791119513  |b 441099901  |j g 
991 |5 441099901:791119513  |a exemplaire créé automatiquement par STAR 
998 |a 943665