Détection de dérivation de texte

L'Internet permet la production et la diffusion de contenu sans effort et à grande vitesse. Cela pose la question du contrôle de leur origine. Ce travail s'intéresse à la détection des liens de dérivation entre des textes. Un lien de dérivation unit un texte dérivé et les textes préexistan...

Full description

Saved in:
Bibliographic Details
Main Author : Poulard Fabien B. (Auteur)
Corporate Authors : Université de Nantes Faculté des sciences et des techniques (Organisme de soutenance), Université de Nantes 1962-2021 (Organisme de soutenance), École doctorale Sciences et technologies de l'information et mathématiques Nantes (Organisme de soutenance)
Other Authors : Daille Béatrice (Directeur de thèse)
Format : Book
Language : français
Title statement : Détection de dérivation de texte / Fabien B. Poulard; sous la direction de Béatrice Daille
Published : [S.l.] : [s.n.] , 2011
Physical Description : 1 vol. (248 f.)
Note de thèse : Thèse de doctorat : Informatique : Nantes : 2011
Availability : Publication autorisée par le jury
Subjects :
Description
Summary : L'Internet permet la production et la diffusion de contenu sans effort et à grande vitesse. Cela pose la question du contrôle de leur origine. Ce travail s'intéresse à la détection des liens de dérivation entre des textes. Un lien de dérivation unit un texte dérivé et les textes préexistants à partir desquels il a été écrit. Nous nous sommes concentré sur la tâche d'identifcation des textes dérivés étant donné un texte source, et ce pour différentes formes de dérivation. Notre première contribution consiste en la défiinition d'un cadre théorique posant les concepts de la dérivation ainsi qu'un modèle multidimensionnel cadrant les différentes formes de dérivation. Nous avons ensuite mis en place un cadre expérimental constitué d'une infrastructure logicielle libre, de corpus d'évaluation et d'un protocole expérimental inspiré de la RI. Les corpus Piithie et Wikinews que nous avons développé sont à notre connaissance les seuls corpus en français pour la détection de dérivation. Finalement, nous avons exploré différentes méthodes de détection fondées sur l'approche par signature. Nous avons notamment introduit les notions de singularité et d'invariance afin de guider le choix des descripteurs utilisés pour la modélisation des textes en vue de leur comparaison. Nos résultats montrent que le choix motivé des descripteurs, linguistiques notamment, permet de réduire la taille de la modélisation des textes, et par conséquence des coûts de la méthode, tout en offrant des performances comparables à l'approche état de l'art beaucoup plus volumineuse.
Thanks to the Internet, the production and publication of content is possible with ease and speed. This possibility raises the issue of controling the origins of this content. This work focuses on detecting derivation links between texts. A derivation link associates a derivative text and the pre-existing texts from which it was written.We focused on the task of identifying derivative texts given a source text for various forms of derivation. Our rst contribution is the denition of a theoretical framework denes the concept of derivation as well as a model framing the dierent forms of derivation. Then, we set up an experimental framework consisting of free software tools, evaluation corpora and evaluation metrics based on IR. The Piithie and Wikinews corpora we have developed are to our knowledge the only ones in French for the evaluation of the detection of derivation links. Finally, we explored dierent methods of detection based on the signature-based approach. In particular, we have introduced the notions of specicity and invariance to guide the choice of descriptors used to modelize the texts in the expectation of their comparison. Our results show that the choice of motivated descriptors, including linguistically motivated ones, can reduce the size of the modelization of texts, and therefore the cost of the method, while oering performances comparable to the much more voluminous state of the art approach.
Variantes de titre : Detecting textual derivatives
Bibliography : Bibliogr. p. III-XVI.