Extraction d'informations sur la régulation transcriptionnelle de gènes à partir d'articles biomédicaux

La cartographie des réseaux de régulation de la transcription des gènes et des mécanismes moléculaires impliqués sont des problématiques importantes pour les biologistes. Les ressources bibliographiques de biologie moléculaire sont une mine prodigieuse d informations expérimentales qui couvrent l�...

Description complète

Enregistré dans:
Détails bibliographiques
Auteur principal : Lorec Julien (Auteur)
Collectivités auteurs : Nantes Université Pôle Santé UFR Médecine et Techniques Médicales Nantes (Autre partenaire associé à la thèse), École doctorale chimie biologie Nantes ....-2008 (Ecole doctorale associée à la thèse), Université de Nantes 1962-2021 (Organisme de soutenance)
Autres auteurs : Jacques Yannick (Directeur de thèse)
Format : Thèse ou mémoire
Langue : français
Titre complet : Extraction d'informations sur la régulation transcriptionnelle de gènes à partir d'articles biomédicaux / Julien Lorec; sous la direction de Yannick Jacques
Publié : [S.l.] : [s.n.] , 2008
Description matérielle : 1 vol. (194-xxxvi f.)
Note de thèse : Thèse de doctorat : Médecine. Bioinformatique : Nantes : 2008
Sujets :
Documents associés : Reproduit comme: Extraction d'informations sur la régulation transcriptionnelle de gènes à partir d'articles biomédicaux
LEADER 06086cam a2200457 4500
001 PPN132300753
003 http://www.sudoc.fr/132300753
005 20240425055200.0
029 |a FR  |b 2008NANT44VS 
035 |a (OCoLC)494932199 
100 |a 20090326d2008 k y0frey0103 ba 
101 0 |a fre  |d fre  |d eng 
102 |a FR 
105 |a a m 000yy 
106 |a r 
200 1 |a Extraction d'informations sur la régulation transcriptionnelle de gènes à partir d'articles biomédicaux  |b Texte imprimé  |f Julien Lorec  |g sous la direction de Yannick Jacques 
210 |a [S.l.]  |c [s.n.]  |d 2008 
215 |a 1 vol. (194-xxxvi f.)  |c ill.  |d 30 cm 
320 |a Bibliogr. f. [11] [154 réf.] 
328 0 |b Thèse de doctorat  |c Médecine. Bioinformatique  |e Nantes  |d 2008 
330 |a La cartographie des réseaux de régulation de la transcription des gènes et des mécanismes moléculaires impliqués sont des problématiques importantes pour les biologistes. Les ressources bibliographiques de biologie moléculaire sont une mine prodigieuse d informations expérimentales qui couvrent l'état de l'art actuel dans le domaine de l expression de gènes. Cependant en raison de la taille gigantesque que représentent les données textuelles du domaine, des méthodes automatisées doivent être mises au point afin d explorer ces données de manière systématique. Dans cette thèse, nous proposons un ensemble de méthodes pour fouiller la littérature de biologie moléculaire et extraire les faits pertinents en relation avec l'expression de gènes humains. Nous présentons tout d'abord une procédure générique destinée à l extraction d'entités nommées candidates à partir des textes. Celle-ci combine une approche d identification à base de règles de groupes nominaux en tant qu entités nommées candidates avec une étape de mise en correspondance au sein de dictionnaires expertisés et élaborés à partir de ressources terminologiques publiques. Des techniques de désambiguïsation spécifiques au domaine sont aussi présentées afin de déterminer la nature réelle de l entité nommée identifiée. Nous détaillons ensuite une méthode qui permet à la fois d extraire les relations pertinentes établies entre les entités nommées et de retrouver certaines caractéristiques de ces associations grâce à une analyse syntaxique dite profonde et l utilisation de structures prédicat-arguments. Nous montrons que l'acquisition de la sémantique à partir de la syntaxe peut être séparée en deux phases distinctes afin de réduire le coût associé à la conception manuelle de règles d'extraction spécifiques au domaine. Finalement, les performances du système sont évaluées à l'aide d'un corpus annoté de pubIications complètes de biologie moléculaire. Les résultats sont prometteurs et malgré la nature hétérogène des données extraites, le système présente des performances à la fois homogènes et compatibles avec la montée en charge. 
330 |a Charting transcriptionally regulated networks of genes and gathering related molecular mechanisms are important issues for biologists- The molecular biology literature is a very rich mine of experimental information that encompasses the current state of knowledge in the gene expression domain. However, due to its tremendous size, automated methods must be devised in order to explore these data in a systemic way. In this thesis, we propose a method set for mining the molecular biology literature and extracting relevant facts about human gene expression regulation We first present a generic methodology to extract potential named entities from texts. This combines rule-based identification of noun phrases as candidate named entities with matching against manually cleaned dictionaries from public sources. Domain-specific disambiguation techniques are also reported in order to help classifying the true nature of an identified named entity. Then we detail a procedure for both retrieving relevant relationships between named entities and their associated features using a deep syntactic analysis and predicate-argument structures. We show that the acquisition of semantics from syntax can be split into several distinct phases so as to lessen the labour usually associated with the design of domain-specific extraction rules. Finally the performance of the system is evaluated using an annotated corpus of specialized full-text publications. The results are promising and despite the heterogeneous nature of the information to retrieve from the data set, the system exhibits homogeneous and highly-scalable performances. 
456 | |0 132301172  |t Extraction d'informations sur la régulation transcriptionnelle de gènes à partir d'articles biomédicaux  |b Ressource électronique  |f Julien Lorec  |c [S.l.]  |n [s.n.]  |d 2008 
541 | |a Genes Transcription Regulation Information Extraction from Biomedical Texts  |z eng 
606 |3 PPN069395721  |a Bioinformatique  |3 PPN027253139  |x Thèses et écrits académiques  |2 rameau 
606 |3 PPN027657256  |a Expression génique  |3 PPN027253139  |x Thèses et écrits académiques  |2 rameau 
606 |3 PPN027623157  |a Transcription génétique  |3 PPN027253139  |x Thèses et écrits académiques  |2 rameau 
606 |3 PPN122706463  |a Articles de périodiques  |3 PPN027253139  |x Thèses et écrits académiques  |2 rameau 
606 |3 PPN02909397X  |a Analyse automatique (linguistique)  |3 PPN027253139  |x Thèses et écrits académiques  |2 rameau 
686 |a 004  |2 TEF 
686 |a 610  |2 TEF 
700 1 |3 PPN132300389  |a Lorec  |b Julien  |f 1979-  |4 070 
702 1 |3 PPN091449359  |a Jacques  |b Yannick  |f 19..-....  |4 727 
712 0 2 |3 PPN076954927  |a Nantes Université  |b Pôle Santé  |b UFR Médecine et Techniques Médicales  |c Nantes  |4 985 
712 0 2 |3 PPN068717946  |a École doctorale chimie biologie  |c Nantes  |c ....-2008  |4 996 
712 0 2 |3 PPN026403447  |a Université de Nantes  |c 1962-2021  |4 295 
801 3 |a FR  |b Abes  |c 20170428  |g AFNOR 
979 |a SAN 
915 |5 441092101:361829159  |b 0558271860 
930 |5 441092101:361829159  |b 441092101  |a 08 NANT 44-VS  |j u 
998 |a 554383