Indexation automatique par termes-clés en domaines de spécialité

Les termes-clés, ou mots-clés, sont des mots ou des expressions qui représentent le contenu d un document. Ils en donnent une représentation synthétique et permettent de l indexer pour la recherche d information. Cette thèse s intéresse à l indexation automatique par termes-clés de documents en doma...

Description complète

Enregistré dans:
Détails bibliographiques
Auteur principal : Bougouin Adrien (Auteur)
Collectivités auteurs : Université de Nantes 1962-2021 (Organisme de soutenance), Université de Nantes Faculté des sciences et des techniques (Organisme de soutenance), École doctorale Sciences et technologies de l'information et mathématiques Nantes (Organisme de soutenance), Laboratoire d Informatique de Nantes Atlantique (UMR 6241) Nantes (Ecole doctorale associée à la thèse), Université Nantes-Angers-Le Mans - COMUE 2009-2015 (Organisme de soutenance)
Autres auteurs : Daille Béatrice (Directeur de thèse), Boudin Florian (Directeur de thèse)
Format : Thèse ou mémoire
Langue : français
Titre complet : Indexation automatique par termes-clés en domaines de spécialité / Adrien Bougouin; sous la direction de Béatrice Daille ; co-encadrant de thèse Florian Boudin
Publié : [Lieu de publication inconnu] : [éditeur inconnu] , 2015
Description matérielle : 1 vol. (116 p.)
Note de thèse : Thèse de doctorat : Informatique Traitement automatique du langage naturel : Nantes : 2015
Disponibilité : Publication autorisée par le jury
Sujets :
Description
Résumé : Les termes-clés, ou mots-clés, sont des mots ou des expressions qui représentent le contenu d un document. Ils en donnent une représentation synthétique et permettent de l indexer pour la recherche d information. Cette thèse s intéresse à l indexation automatique par termes-clés de documents en domaines de spécialité. La tâche est difficile à réaliser et les méthodes actuelles peinent encore à atteindre des résultats satisfaisants. Notre démarche s organise en deux temps. Dans un premier temps, nous nous intéressons à l indexation par termes-clés en général. Nous proposons une méthode pour sélectionner des termes-clés candidats dans un document en nous focalisant sur la catégorie des adjectifs qu ils peuvent contenir, puis proposons uneméthode pour les ordonner par importance. Cette dernière, TopicRank, se situe en aval de la sélection des candidats. C est une méthode à base de graphe qui groupe les termes-clés candidats véhiculant le même sujet, projette les sujets dans un graphe et extrait un terme-clé par sujet. Nos expériences montrent que TopicRank est significativement meilleur que les précédentes méthodes à base de graphe. Dans un second temps, nous adaptons notre travail à l indexation par termes-clés en domaines de spécialité. Nous étudions la méthodologie d indexation manuelle de documentalistes et la simulons à l aide de TopicCoRank. TopicCoRank ajoute à TopicRank un graphe qui représente le domaine de spécialité du document. Grâce à ce second graphe, TopicCoRank possède la rare capacité à fournir des termes-clés qui n apparaissent pas dans les documents. Appliqué à quatre domaines de spécialité, TopicCoRank améliore significativement TopicRank.
Keyphrases are words or multi-word expressions that represent the content of a document. Keyphrases give a synoptic view of a document and help to index it for information retrieval. This Ph.D thesis focuses on domain-specific automatic keyphrase annotation. Automatic keyphrase annotation is still a difficult task, and current systems do not achieve satisfactory results. Our work is divided in two steps. First, we propose a keyphrase candidate selection method that focuses on the categories of adjectives relevant within keyphrases and propose a method to rank them according to their importance within the document. This method, TopicRank, is a graph-based method that clusters keyphrase candidates into topics, ranks the topics and extracts one keyphrase per important topic. Our experiments show that TopicRank significantly outperforms other graph-basedmethods for automatic keyphrase annotation. Second, we focus on domain-specific documents and adapt our previous work. We study the best practice of manual keyphrase annotation by professional indexers andmimic it with a newmethod, TopicCoRank. TopicCoRank adds a new graph representing the specific domain to the topic graph of TopicRank. Leveraging this second graph, TopicCoRank possesses the rare ability to provide keyphrases that do not occur within documents. Applied on four corpora of four specific domains, TopicCoRank significantly outperforms TopicRank.
Variantes de titre : Automatic domain-specific keyphrase annotation
Notes : Ecole(s) Doctorale(s) : École doctorale sciences et technologies de l'information et de mathématiques (STIM) (Nantes)
Partenaire de recherche : Laboratoire d Informatique de Nantes Atlantique (LINA) (Nantes) (Laboratoire)
Autre(s) contribution(s) : Marc Gelgon (Président du jury) ; Fabienne Moreau (Membre du jury) ; Brigitte Grau, Jacques Savoy (Rapporteurs)
Bibliographie : Bibliogr. p.107-114