Extraction de signatures complexes pour la découverte de nouveaux membres dans des familles de protéines connues

Cette thèse a permis d'obtenir des modèles de classification pour les familles structurales des interleukines à hélices a humaines au moyen d'un ensemble de signatures caractéristiques. Nous avons établi une approche génétique en trois étapes. Les signatures sont définies par des séquences...

Description complète

Enregistré dans:
Détails bibliographiques
Auteur principal : Mikolajczak Jérôme (Auteur)
Collectivités auteurs : Nantes Université Pôle Santé UFR Médecine et Techniques Médicales Nantes (Organisme de soutenance), École doctorale chimie biologie Nantes ....-2008 (Organisme de soutenance)
Autres auteurs : Jacques Yannick (Directeur de thèse)
Format : Thèse ou mémoire
Langue : français
Titre complet : Extraction de signatures complexes pour la découverte de nouveaux membres dans des familles de protéines connues / Jérôme Mikolajczak; sous la direction de Yannick Jacques
Publié : [S.l.] : [s.n.] , 2005
Description matérielle : 1 vol. (290 f.)
Accès en ligne : Accès Nantes Université
Note de thèse : Thèse doctorat : Médecine. Bioinformatique : Université de Nantes : 2005
Disponibilité : Publication autorisée par le jury
Sujets :
Description
Résumé : Cette thèse a permis d'obtenir des modèles de classification pour les familles structurales des interleukines à hélices a humaines au moyen d'un ensemble de signatures caractéristiques. Nous avons établi une approche génétique en trois étapes. Les signatures sont définies par des séquences de motifs hiérarchiques préalablement extraits et basés sur une classification hiérarchique des acides aminés en fonction de leurs propriétés physico-chimiques. Après optimisation, l'ensemble optimal des signatures cible spécifiquement notre ensemble d'interleukines. Une seconde approche repose sur l'utilisation originale d'un algorithme de découverte de motifs suivant le paradigme de la classification hiérarchique. L'ensemble des motifs définit un espace de représentation vectoriel basé sur la présence ou l'absence de chaque motif dans les séquences d'interleukines. Nous utilisons la technique des Systèmes à Vastes Marges pour discriminer nos familles. Notre modèle de classification des interleukines est plus performant que d'autres méthodes et ouvre la voie à des travaux d'extraction de nouvelles interleukines dans les bases de données génomiques.
This thesis allowed us to obtain classification models from the structural families of all a helices human interleukins by the way of a set of representative signatures. We established a genetic approach following a three steps process. A discovery algorithm of sequential itemsets searchs for sequence of hierarchical patterns previously extracted and based on an alphabet including the amino acid set and their own physicochemical properties. After a reduction step, the optimal set of signatures specifically targets our set of interleukins. The second part of our work consisted in an original discriminative approach which proposes an algorithm for discovering motifs based on the ascending hierarchical paradigm. The set of motifs defines a vectorial feature space that indicates the presence of the motifs in the interleukin sequences. We use the Support Vector Machines to discriminate our set. Our classification model . performs better on our interleukins than other remote protein classification methods and opens 1 the way toward the extraction of new interleukins from the genomic public databases.
Variantes de titre : Characterization of complex signatures for the discovery of new members in well-known protein families
Bibliographie : Bibliogr. 219-233 f. [308 réf.]