Indexation de bout-en-bout dans les bibliothèques numériques scientifiques

Le nombre de documents scientifiques dans les bibliothèques numériques ne cesse d augmenter. Les mots-clés, permettant d enrichir l indexation de ces documents ne peuvent être annotés manuellement étant donné le volume de document à traiter. La production automatique de mots-clés est donc un enjeu i...

Description complète

Enregistré dans:
Détails bibliographiques
Auteurs principaux : Gallina Ygor (Auteur), Daille Béatrice (Directeur de thèse), Boudin Florian (Directeur de thèse), Dufour Richard (Président du jury de soutenance), Mothe Josiane enseignante-chercheuse en informatique (Rapporteur de la thèse, Membre du jury), Paroubek Patrick (Rapporteur de la thèse, Membre du jury), Goeuriot Lorraine (Membre du jury)
Collectivités auteurs : Nantes Université 2022-.... (Organisme de soutenance), École doctorale Mathématiques et sciences et technologies de l'information et de la communication Rennes (Ecole doctorale associée à la thèse), Laboratoire des Sciences du Numérique de Nantes (Laboratoire associé à la thèse)
Format : Thèse ou mémoire
Langue : français
Titre complet : Indexation de bout-en-bout dans les bibliothèques numériques scientifiques / Ygor Gallina; sous la direction de Béatrice Daille et de Florian Boudin
Publié : 2022
Accès en ligne : Accès Nantes Université
Note sur l'URL : Accès au texte intégral
Note de thèse : Thèse de doctorat : Informatique : Nantes Université : 2022
Sujets :
LEADER 06214clm a2200673 4500
001 PPN261841815
003 http://www.sudoc.fr/261841815
005 20240124055400.0
029 |a FR  |b 2022NANU4007 (NNT) 
033 |a http://www.theses.fr/2022NANU4007 
035 |a (OCoLC)1311081265 
035 |a STAR181867 
100 |a 20220415d2022 k y0frey0103 ba 
101 0 |a fre  |d fre  |d eng 
102 |a FR 
105 |a ||||ma 00|yy 
135 |a dr||||||||||| 
181 |6 z01  |c txt  |2 rdacontent 
181 1 |6 z01  |a i#  |b xxxe## 
182 |6 z01  |c c  |2 rdamedia 
182 1 |6 z01  |a b 
183 |6 z01  |a ceb  |2 RDAfrCarrier 
200 1 |a Indexation de bout-en-bout dans les bibliothèques numériques scientifiques  |f Ygor Gallina  |g sous la direction de Béatrice Daille et de Florian Boudin 
214 1 |d 2022 
230 |a Données textuelles 
304 |a Titre provenant de l'écran-titre 
314 |a Ecole(s) Doctorale(s) : École doctorale Mathématiques et sciences et technologies de l'information et de la communication (Rennes) 
314 |a Partenaire(s) de recherche : Laboratoire des Sciences du Numérique de Nantes (Laboratoire) 
314 |a Autre(s) contribution(s) : Richard Dufour (Président du jury) ; Josiane Mothe, Patrick Paroubek, Lorraine Goeuriot (Membre(s) du jury) ; Josiane Mothe, Patrick Paroubek (Rapporteur(s)) 
328 0 |b Thèse de doctorat  |c Informatique  |e Nantes Université  |d 2022 
330 |a Le nombre de documents scientifiques dans les bibliothèques numériques ne cesse d augmenter. Les mots-clés, permettant d enrichir l indexation de ces documents ne peuvent être annotés manuellement étant donné le volume de document à traiter. La production automatique de mots-clés est donc un enjeu important. Le cadre évaluatif le plus utilisé pour cette tâche souffre de nombreuses faiblesses qui rendent l évaluation des nouvelles méthodes neuronales peu fiables. Notre objectif est d identifier précisément ces faiblesses et d y apporter des solutions selon trois axes. Dans un premier temps, nous introduisons KPTimes, un jeu de données du domaine journalistique. Il nous permet d analyser la capacité de généralisation des méthodes neuronales. De manière surprenante, nos expériences montrent que le modèle le moins performant est celui qui généralise le mieux. Dans un deuxième temps, nous effectuons une comparaison systématique des méthodes états de l art grâce à un cadre expérimental strict. Cette comparaison indique que les méthodes de référence comme TF#IDF sont toujours compétitives et que la qualité des mots-clés de référence a un impact fort sur la fiabilité de l évaluation. Enfin, nous présentons un nouveau protocole d évaluation extrinsèque basé sur la recherche d information. Il nous permet d évaluer l utilité des mots-clés, une question peu abordée jusqu à présent. Cette évaluation nous permet de mieux identifier les mots-clés importants pour la tâche de production automatique de motsclés et d orienter les futurs travaux. 
330 |a More and more scientific documents are being avaible in digital libraries. Efficient indexing is of the utmost importance for ease of access to scientific knowledge. Keywords, that supplements this indexation, can t be annotated manually given the volume of document to process. Automatic keyword production is then an important issue. The commonly used evaluation protocol has many weaknesses which make the evaluation of the recent neural models less reliable. Our goal is to precisely identify these weaknesses and to provide solutions given three axis. First, we introduce KPTimes, a dataset from the news domain. It will allow us to analyse the generalisation ability of neural models. Suprisingly, the least performant model is the most generalisable one. Then, we perform a systematic comparison of state-of-the-art methods using a strict experimental setup. This comparison shows that baselines such as TF#IDF are still competitive and that reference keywords quality have a strong impact on evaluation reliability. Finally, we introduce a new extrinsic evaluation protocol based on information retrieval. It allow us to evaluate keyphrase usefulness, an issue that has been given very little attention until now. This evaluation will help us better identify important keywords for automatic keyword production and to guide future works. 
337 |a Configuration requise : un logiciel capable de lire un fichier au format : PDF 
541 | |a End-to-end indexation in digital scientific libraries  |z eng 
606 |3 PPN027819116  |a Indexation automatique  |2 rameau 
606 |3 PPN027283577  |a Thésaurus  |2 rameau 
606 |3 PPN052496074  |a Moteurs de recherche  |2 rameau 
606 |3 PPN033542996  |a Bibliothèques scientifiques  |2 rameau 
606 |3 PPN114594333  |a Medical Subject Headings  |2 rameau 
608 |3 PPN027253139  |a Thèses et écrits académiques  |2 rameau 
610 0 |a Évaluation extrinsèque 
686 |a 004  |2 TEF 
700 1 |3 PPN261840142  |a Gallina  |b Ygor  |f 1995-....  |4 070 
701 1 |3 PPN060702435  |a Daille  |b Béatrice  |4 727 
701 1 |3 PPN130897078  |a Boudin  |b Florian  |4 727 
701 1 |3 PPN150904886  |a Dufour  |b Richard  |f 1985-....  |4 956 
701 1 |3 PPN087097222  |a Mothe  |b Josiane  |f 19..-....  |c enseignante-chercheuse en informatique  |4 958  |4 555 
701 1 |3 PPN057218730  |a Paroubek  |b Patrick  |f 19..-....  |4 958  |4 555 
701 1 |3 PPN143794957  |a Goeuriot  |b Lorraine  |f 1983-....  |4 555 
711 0 2 |3 PPN258086599  |a Nantes Université  |c 2022-....  |4 295 
711 0 2 |3 PPN204770424  |a École doctorale Mathématiques et sciences et technologies de l'information et de la communication  |c Rennes  |4 996 
711 0 2 |3 PPN203637585  |a Laboratoire des Sciences du Numérique de Nantes  |4 981 
801 3 |a FR  |b Abes  |c 20220819  |g AFNOR 
856 4 |q PDF  |s 2374106  |u http://www.theses.fr/2022NANU4007/document  |z Accès au texte intégral 
856 4 |u https://archive.bu.univ-nantes.fr/pollux/show/show?id=d268b5f6-8501-4b25-bf36-f69455e927fe 
856 4 |u http://www.theses.fr/2022NANU4007/abes 
930 |5 441099901:73944865X  |b 441099901  |j g 
991 |5 441099901:73944865X  |a exemplaire créé automatiquement par STAR 
998 |a 925306