Affichage MARC: Évaluation en extraction de lexiques bilingues à partir de corpus comparables

Évaluation en extraction de lexiques bilingues à partir de corpus comparables

L extraction de lexique bilingue (BLI) a pour objectif la création, de manière automatique à partir de corpus bilingues, de lexiques entre deux langues. Le BLI est utilisé le plus souvent en domaine général, où les lexiques extraits peuvent par exemple servir en traduction automatique ou en recherch...

Description complète

Enregistré dans:

Détails bibliographiques
Auteurs principaux :	Laville Martin (Auteur), Morin Emmanuel (Directeur de thèse), Langlais Philippe (Directeur de thèse), Zweigenbaum Pierre (Président du jury de soutenance), Gaussier Éric (Rapporteur de la thèse), Apidianaki Marianna (Rapporteur de la thèse)
Collectivités auteurs :	Nantes Université 2022-.... (Organisme de soutenance), École doctorale Mathématiques et Sciences et Technologies du numérique, de l Information et de la Communication Nantes 2022-.... (Ecole doctorale associée à la thèse), Laboratoire des Sciences du Numérique de Nantes (Laboratoire associé à la thèse)
Format :	Thèse ou mémoire
Langue :	français
Titre complet :	Évaluation en extraction de lexiques bilingues à partir de corpus comparables / Martin Laville; sous la direction de Emmanuel Morin et de Philippe Langlais
Publié :	2023
Accès en ligne :	Accès Nantes Université
Note sur l'URL :	Accès au texte intégral
Note de thèse :	Thèse de doctorat : Informatique : Nantes Université : 2023
Sujets :	Traduction automatique Plongements (mathématiques) Corpus bilingues Corpus spécialisés Jeux de données Thèses et écrits académiques


LEADER	05928nlm a2200637 4500
001	PPN270264450
003	http://www.sudoc.fr/270264450
005	20240523055400.0
029			\|a FR \|b 2023NANU4009
033			\|a http://www.theses.fr/2023NANU4009
035			\|a STAR197626
100			\|a 20230602d2023 k y0frey0103 ba
101	0		\|a fre \|d fre \|d eng \|2 639-2
102			\|a FR
105			\|a \|\|\|\|ma 00\|yy
135			\|a dr\|\|\|\|\|\|\|\|\|\|\|
181			\|6 z01 \|c txt \|2 rdacontent
181		1	\|6 z01 \|a i# \|b xxxe##
182			\|6 z01 \|c c \|2 rdamedia
182		1	\|6 z01 \|a b
183			\|6 z01 \|a ceb \|2 RDAfrCarrier
200	1		\|a Évaluation en extraction de lexiques bilingues à partir de corpus comparables \|f Martin Laville \|g sous la direction de Emmanuel Morin et de Philippe Langlais
214		1	\|d 2023
230			\|a Données textuelles
304			\|a Titre provenant de l'écran-titre
314			\|a Ecole(s) Doctorale(s) : École Doctorale Mathématiques et Sciences et Technologies du numérique, de l Information et de la Communication (Nantes)
314			\|a Partenaire(s) de recherche : Laboratoire des Sciences du Numérique de Nantes (Laboratoire)
314			\|a Autre(s) contribution(s) : Pierre Zweigenbaum (Président du jury) ; Éric Gaussier, Marianna Apidianaki (Rapporteur(s))
328		0	\|b Thèse de doctorat \|c Informatique \|e Nantes Université \|d 2023
330			\|a L extraction de lexique bilingue (BLI) a pour objectif la création, de manière automatique à partir de corpus bilingues, de lexiques entre deux langues. Le BLI est utilisé le plus souvent en domaine général, où les lexiques extraits peuvent par exemple servir en traduction automatique ou en recherche d information. Les systèmes de BLI fonctionnent alors sur de grandes quantités de données et les résultats semblent hautement satisfaisants. Cependant, les données d évaluation contiennent de nombreuses erreurs, ce qui pourrait conduire à une remise en question des systèmes. Un second contexte d utilisation plus marginal du BLI est celui des domaines de spécialité, où l objectif est l obtention de traductions absentes des dictionnaires classiques. Les corpus spécialisés (qui ne concernent qu un seul sujet) sont peu fournis en données et il est compliqué pour les systèmes de BLI d obtenir d aussi bons résultats qu en domaine général. Il faut donc chercher à adapter les approches pour prendre en compte cette particularité. Dans cette thèse, nous améliorons les résultats obtenus en BLI en domaine de spécialité en proposant l utilisation de techniques de sélection de données. Puis, nous nous intéressons au processus d évaluation en domaine général et plus particulièrement à certains biais présents dans les données d évaluation comme la surprésence de paires de mots très fréquents ou graphiquement identiques et proposons un processus d évaluation plus précis et unifié qui prend en compte ces faiblesses dans les données.
330			\|a Bilingual lexicon extraction (BLI) has as its objective the creation, in an automatic manner from bilingual corpora, of lexicons between two languages. It is most often used in the general domain, where the extracted lexicons can be used in machine translation or information retrieval. BLI systems work on large amounts of data and the results seem to be highly satisfactory. However, the evaluation data contains many errors, which could lead to a re-evaluation of the systems. A second and more marginal context of use of BLI systems is in specialized domains, where the objective is to obtain translations that are not available in classical dictionaries. Specialized corpora (about only one subject) are poorly supplied with data and it is complicated for BLI systems to obtain as good results as in the general domain. It is therefore necessary to adapt the approaches to take into account this particularity. In this thesis, we improve the results obtained in specialized domains by proposing the use of data selection techniques. Then, we focus on the evaluation process in general domain and more particularly on some biases present in evaluation data such as the overpresence of very frequent or graphically identical word pairs and we propose a more accurate and unified evaluation process that takes into account these weaknesses.
337			\|a Configuration requise : un logiciel capable de lire un fichier au format : PDF
541	\|		\|a Evaluating bilingual lexicon induction using comparable corpora \|z eng
606			\|3 PPN027431819 \|a Traduction automatique \|2 rameau
606			\|3 PPN031455867 \|a Plongements (mathématiques) \|2 rameau
608			\|3 PPN027253139 \|a Thèses et écrits académiques \|2 rameau
610	0		\|a Corpus bilingues
610	0		\|a Corpus spécialisés
610	0		\|a Jeux de données
686			\|a 004 \|2 TEF
700		1	\|3 PPN270256334 \|a Laville \|b Martin \|f 1995-.... \|4 070
701		1	\|3 PPN14379373X \|a Morin \|b Emmanuel \|f 1971-.... \|c enseignant-chercheur en informatique \|4 727
701		1	\|3 PPN079116620 \|a Langlais \|b Philippe \|4 727
701		1	\|3 PPN06664268X \|a Zweigenbaum \|b Pierre \|f 1958-.... \|4 956
701		1	\|3 PPN074308297 \|a Gaussier \|b Éric \|4 958
701		1	\|3 PPN128505680 \|a Apidianaki \|b Marianna \|f 1976-.... \|4 958
711	0	2	\|3 PPN258086599 \|a Nantes Université \|c 2022-.... \|4 295
711	0	2	\|3 PPN268274525 \|a École doctorale Mathématiques et Sciences et Technologies du numérique, de l Information et de la Communication \|c Nantes \|c 2022-.... \|4 996
711	0	2	\|3 PPN203637585 \|a Laboratoire des Sciences du Numérique de Nantes \|4 981
801		3	\|a FR \|b Abes \|c 20230602 \|g AFNOR
856	4		\|q PDF \|s 3169022 \|u http://www.theses.fr/2023NANU4009/document \|z Accès au texte intégral
856	4		\|u http://www.theses.fr/2023NANU4009/abes
856	4		\|u https://tel.archives-ouvertes.fr/tel-04115427
930			\|5 441099901:791119513 \|b 441099901 \|j g
991			\|5 441099901:791119513 \|a exemplaire créé automatiquement par STAR
998			\|a 943665

Évaluation en extraction de lexiques bilingues à partir de corpus comparables

Documents similaires