Classification de variables autour de variables latentes avec filtrage de l information : application à des données en grande dimension

Avec le développement des techniques d'analyse à haut débit, les chercheurs ont adopté des démarches de profilage systémique qui permettent l'analyse descriptive simultanée d'un grand nombre de variables. Une des diffcultés réside dans la synthèse et l'interprétation de ces nombr...

Description complète

Enregistré dans:
Détails bibliographiques
Auteur principal : Chen Mingkun (Auteur)
Collectivités auteurs : Université de Nantes 1962-2021 (Organisme de soutenance), Université de Nantes Faculté des sciences et des techniques (Autre partenaire associé à la thèse), École doctorale Végétal-Environnement-Nutrition-Agro-Alimentaire-Mer Angers (Ecole doctorale associée à la thèse)
Autres auteurs : Vigneau Evelyne (Directeur de thèse)
Format : Thèse ou mémoire
Langue : français
anglais
Titre complet : Classification de variables autour de variables latentes avec filtrage de l information : application à des données en grande dimension / Mingkun Chen; sous la direction de Evelyne Vigneau
Publié : [Lieu de publication inconnu] : [éditeur inconnu] , 2014
Description matérielle : 1 vol. (113 p.)
Note de thèse : Thèse de doctorat : Sciences mathématiques appliquées,Statistique appliquée : Nantes : 2014
Disponibilité : Publication autorisée par le jury
Sujets :
Documents associés : Reproduit comme: Classification de variables autour de variables latentes avec filtrage de l information
LEADER 05853cam a2200577 4500
001 PPN192137875
003 http://www.sudoc.fr/192137875
005 20240531154500.0
029 |a FR  |b 2014NANT2046 
100 |a 20160323d2014 k y|frey0103 ba 
101 0 |a fre  |a eng  |d fre  |d eng 
102 |a FR 
105 |a y m 00||| 
106 |a r 
181 |6 z01  |c txt  |2 rdacontent 
181 1 |6 z01  |a i#  |b xxxe## 
182 |6 z01  |c n  |2 rdamedia 
182 1 |6 z01  |a n 
200 1 |a Classification de variables autour de variables latentes avec filtrage de l information  |e application à des données en grande dimension  |f Mingkun Chen  |g sous la direction de Evelyne Vigneau 
210 |a [Lieu de publication inconnu]  |c [éditeur inconnu]  |d 2014 
215 |a 1 vol. (113 p.)  |c ill.  |d 30 cm 
310 |a Publication autorisée par le jury 
314 |a Ecole(s) Doctorale(s) : École doctorale Végétal-Environnement-Nutrition-Agro-Alimentaire-Mer (VENAM) (Nantes) 
314 |a Autre(s) contribution(s) : Robert Sabatier (Président du jury) ; Jean-Benoît Hardouin, Jean-Philippe Antignac, Joachim Kunert, El Mostafa Qannari (Membre(s) du jury) ; Christian Derquenne (Rapporteur(s)) 
320 |a Bibliogr. p.103-110 
328 |b Thèse de doctorat  |c Sciences mathématiques appliquées,Statistique appliquée  |e Nantes  |d 2014 
330 |a Avec le développement des techniques d'analyse à haut débit, les chercheurs ont adopté des démarches de profilage systémique qui permettent l'analyse descriptive simultanée d'un grand nombre de variables. Une des diffcultés réside dans la synthèse et l'interprétation de ces nombreuses informations. Nous adoptons ici une approche de classiffcation de variables (CLV) qui permet de mettre en lumière des structures disjonctives pour la réduction de la dimensionnalité du problème, facilitant ainsi l'interprétation des données. Cependant, afin d'améliorer davantage la pertinence de ce type d'approches, deux directions d'investigation sont proposées. La première consiste à filtrer les données de sorte à écarter les variables isolées ouassociées à du bruit de fond. Une stratégie qui consiste à créer un groupe supplémentaire de variables, appelé noise cluster", ainsi qu'une stratégie fondée sur la définition de variables latentes de groupe creuses (ou sparse) sont proposées et comparées. La seconde direction d'investigation est le développement d'une procédure de classification de variables dirigée vers l'explication d'une variable de réponse. Un algorithme itératif de classification/extraction est proposé. Il fournit une séquence de variables latentes de groupes ayant de bonnes performances en prédiction. Elles sont également simples à interpréter dans la mesure ou chaque composante prédictrice n'est associée qu'à un sous-ensemble de variables exploratoires conçu pour avoir une structure pratiquement unidimensionnelle. 
330 |a With the development of high-throughput analysis techniques, researchers have adopted systematic approaches to describe simultaneously a large number of variables. However, one of the important challenges lies in the diffculty to summarise and interpret this enormous quantity of information. We adopt a clustering of variables approach (CLV) which allows us to highlight disjunctive structures, and therefore, reduce the dimensionality of the problem and facilitate the interpretation of the data at hand. However, in order to further improve the relevance of such approaches, two directions of investigation are proposed. The first direction involves filtering the data by setting aside atypical variables or variables associated with noise. For this purpose, a strategy to create an additional group of variables, called noise cluster, and a strategy based on the definition of sparse latent variables are proposed and compared. The second direction concerns the development of a clustering of variables procedure directed to the explanation of a response variable. The implementation of iterative algorithms provides a sequence of group latent variables with good predictive performance. These latent variables are also easy to interpret since each predictive component is associated with a subset of variables assumed to have a one-dimensional structure. 
456 | |0 19213972X  |t Classification de variables autour de variables latentes avec filtrage de l information  |o application à des données en grande dimension  |f Mingkun Chen  |c [Lieu de publication inconnu]  |n [éditeur inconnu]  |d 2014 
541 | |a Clustering of variables around latent components with an information filtering : application to high dimensional data  |z eng 
606 |3 PPN031356834  |a Variables (mathématiques)  |3 PPN027253139  |x Thèses et écrits académiques  |2 rameau 
610 0 |a Classification de variables 
610 0 |a Variables de bruit 
610 0 |a Variables latentes creuses 
610 0 |a Prédiction 
610 0 |a Données en grande dimension 
686 |a 510  |2 TEF 
700 1 |3 PPN192071882  |a Chen  |b Mingkun  |f 1988-....  |4 070 
702 1 |3 PPN192137859  |a Vigneau  |b Evelyne  |f 19..-....  |4 727 
702 1 |3 PPN069516871  |a Sabatier  |b Robert  |f 1954-....  |4 956  |4 555 
702 1 |3 PPN098854844  |a Derquenne  |b Christian  |f 1960-....  |4 958  |4 555 
702 1 |3 PPN095342087  |a Hardouin  |b Jean-Benoit  |f 1976- ....  |4 555 
702 1 |3 PPN060342528  |a Antignac  |b Jean-Philippe  |4 555 
702 1 |3 PPN114381445  |a Qannari  |b El Mostafa  |4 555 
712 0 2 |3 PPN026403447  |a Université de Nantes  |c 1962-2021  |4 295 
712 0 2 |3 PPN033124884  |a Université de Nantes  |b Faculté des sciences et des techniques  |4 985 
712 0 2 |3 PPN147347793  |a École doctorale Végétal-Environnement-Nutrition-Agro-Alimentaire-Mer  |c Angers  |4 996 
801 3 |a FR  |b Abes  |c 20171204  |g AFNOR 
930 |5 441092104:550785388  |b 441092104  |j u 
979 |a SCI 
998 |a 748817