Indexation de bout-en-bout dans les bibliothèques numériques scientifiques

Le nombre de documents scientifiques dans les bibliothèques numériques ne cesse d augmenter. Les mots-clés, permettant d enrichir l indexation de ces documents ne peuvent être annotés manuellement étant donné le volume de document à traiter. La production automatique de mots-clés est donc un enjeu i...

Description complète

Enregistré dans:
Détails bibliographiques
Auteurs principaux : Gallina Ygor (Auteur), Daille Béatrice (Directeur de thèse), Boudin Florian (Directeur de thèse), Dufour Richard (Président du jury de soutenance), Mothe Josiane enseignante-chercheuse en informatique (Rapporteur de la thèse, Membre du jury), Paroubek Patrick (Rapporteur de la thèse, Membre du jury), Goeuriot Lorraine (Membre du jury)
Collectivités auteurs : Nantes Université 2022-.... (Organisme de soutenance), École doctorale Mathématiques et sciences et technologies de l'information et de la communication Rennes (Ecole doctorale associée à la thèse), Laboratoire des Sciences du Numérique de Nantes (Laboratoire associé à la thèse)
Format : Thèse ou mémoire
Langue : français
Titre complet : Indexation de bout-en-bout dans les bibliothèques numériques scientifiques / Ygor Gallina; sous la direction de Béatrice Daille et de Florian Boudin
Publié : 2022
Accès en ligne : Accès Nantes Université
Note sur l'URL : Accès au texte intégral
Note de thèse : Thèse de doctorat : Informatique : Nantes Université : 2022
Sujets :
Description
Résumé : Le nombre de documents scientifiques dans les bibliothèques numériques ne cesse d augmenter. Les mots-clés, permettant d enrichir l indexation de ces documents ne peuvent être annotés manuellement étant donné le volume de document à traiter. La production automatique de mots-clés est donc un enjeu important. Le cadre évaluatif le plus utilisé pour cette tâche souffre de nombreuses faiblesses qui rendent l évaluation des nouvelles méthodes neuronales peu fiables. Notre objectif est d identifier précisément ces faiblesses et d y apporter des solutions selon trois axes. Dans un premier temps, nous introduisons KPTimes, un jeu de données du domaine journalistique. Il nous permet d analyser la capacité de généralisation des méthodes neuronales. De manière surprenante, nos expériences montrent que le modèle le moins performant est celui qui généralise le mieux. Dans un deuxième temps, nous effectuons une comparaison systématique des méthodes états de l art grâce à un cadre expérimental strict. Cette comparaison indique que les méthodes de référence comme TF#IDF sont toujours compétitives et que la qualité des mots-clés de référence a un impact fort sur la fiabilité de l évaluation. Enfin, nous présentons un nouveau protocole d évaluation extrinsèque basé sur la recherche d information. Il nous permet d évaluer l utilité des mots-clés, une question peu abordée jusqu à présent. Cette évaluation nous permet de mieux identifier les mots-clés importants pour la tâche de production automatique de motsclés et d orienter les futurs travaux.
More and more scientific documents are being avaible in digital libraries. Efficient indexing is of the utmost importance for ease of access to scientific knowledge. Keywords, that supplements this indexation, can t be annotated manually given the volume of document to process. Automatic keyword production is then an important issue. The commonly used evaluation protocol has many weaknesses which make the evaluation of the recent neural models less reliable. Our goal is to precisely identify these weaknesses and to provide solutions given three axis. First, we introduce KPTimes, a dataset from the news domain. It will allow us to analyse the generalisation ability of neural models. Suprisingly, the least performant model is the most generalisable one. Then, we perform a systematic comparison of state-of-the-art methods using a strict experimental setup. This comparison shows that baselines such as TF#IDF are still competitive and that reference keywords quality have a strong impact on evaluation reliability. Finally, we introduce a new extrinsic evaluation protocol based on information retrieval. It allow us to evaluate keyphrase usefulness, an issue that has been given very little attention until now. This evaluation will help us better identify important keywords for automatic keyword production and to guide future works.
Variantes de titre : End-to-end indexation in digital scientific libraries
Notes : Titre provenant de l'écran-titre
Ecole(s) Doctorale(s) : École doctorale Mathématiques et sciences et technologies de l'information et de la communication (Rennes)
Partenaire(s) de recherche : Laboratoire des Sciences du Numérique de Nantes (Laboratoire)
Autre(s) contribution(s) : Richard Dufour (Président du jury) ; Josiane Mothe, Patrick Paroubek, Lorraine Goeuriot (Membre(s) du jury) ; Josiane Mothe, Patrick Paroubek (Rapporteur(s))
Configuration requise : Configuration requise : un logiciel capable de lire un fichier au format : PDF