Classification de variables autour de variables latentes avec filtrage de l information : application à des données en grande dimension

Avec le développement des techniques d'analyse à haut débit, les chercheurs ont adopté des démarches de profilage systémique qui permettent l'analyse descriptive simultanée d'un grand nombre de variables. Une des diffcultés réside dans la synthèse et l'interprétation de ces nombr...

Description complète

Enregistré dans:
Détails bibliographiques
Auteurs principaux : Chen Mingkun (Auteur), Vigneau Evelyne (Directeur de thèse), Sabatier Robert (Président du jury de soutenance, Membre du jury), Derquenne Christian (Rapporteur de la thèse, Membre du jury), Hardouin Jean-Benoit (Membre du jury), Antignac Jean-Philippe (Membre du jury), Qannari El Mostafa (Membre du jury)
Collectivités auteurs : Université de Nantes 1962-2021 (Organisme de soutenance), Université de Nantes Faculté des sciences et des techniques (Autre partenaire associé à la thèse), École doctorale Végétal-Environnement-Nutrition-Agro-Alimentaire-Mer Angers (Ecole doctorale associée à la thèse)
Format : Thèse ou mémoire
Langue : français
anglais
Titre complet : Classification de variables autour de variables latentes avec filtrage de l information : application à des données en grande dimension / Mingkun Chen; sous la direction de Evelyne Vigneau
Publié : [Lieu de publication inconnu] : [éditeur inconnu] , 2014
Description matérielle : 1 vol. (113 p.)
Condition d'utilisation et de reproduction : Publication autorisée par le jury
Note de thèse : Thèse de doctorat : Sciences mathématiques appliquées,Statistique appliquée : Nantes : 2014
Sujets :
Documents associés : Reproduit comme: Classification de variables autour de variables latentes avec filtrage de l information
Particularités de l'exemplaire : BU Sciences, Ex. 1 :
Titre temporairement indisponible à la communication

LEADER 06101cam a2200625 4500
001 PPN192137875
003 http://www.sudoc.fr/192137875
005 20240829055200.0
029 |a FR  |b 2014NANT2046 
035 |a (OCoLC)1247894804 
100 |a 20160323d2014 k y|frey0103 ba 
101 0 |a fre  |a eng  |d fre  |d eng  |2 639-2 
102 |a FR 
105 |a ||||m 00||| 
106 |a r 
181 1 |6 z01  |c txt  |2 rdacontent 
181 1 |6 z01  |a i#  |b xxxe## 
182 1 |6 z01  |c n  |2 rdamedia 
182 1 |6 z01  |a n 
200 1 |a Classification de variables autour de variables latentes avec filtrage de l information  |e application à des données en grande dimension  |f Mingkun Chen  |g sous la direction de Evelyne Vigneau 
210 |a [Lieu de publication inconnu]  |c [éditeur inconnu]  |d 2014 
215 |a 1 vol. (113 p.)  |c ill.  |d 30 cm 
314 |a Ecole(s) Doctorale(s) : École doctorale Végétal-Environnement-Nutrition-Agro-Alimentaire-Mer (VENAM) (Nantes) 
314 |a Autre(s) contribution(s) : Robert Sabatier (Président du jury) ; Jean-Benoît Hardouin, Jean-Philippe Antignac, Joachim Kunert, El Mostafa Qannari (Membre(s) du jury) ; Christian Derquenne (Rapporteur(s)) 
316 |5 441092104:550785388  |a Titre temporairement indisponible à la communication 
320 |a Bibliogr. p.103-110 
328 |b Thèse de doctorat  |c Sciences mathématiques appliquées,Statistique appliquée  |e Nantes  |d 2014 
330 |a Avec le développement des techniques d'analyse à haut débit, les chercheurs ont adopté des démarches de profilage systémique qui permettent l'analyse descriptive simultanée d'un grand nombre de variables. Une des diffcultés réside dans la synthèse et l'interprétation de ces nombreuses informations. Nous adoptons ici une approche de classiffcation de variables (CLV) qui permet de mettre en lumière des structures disjonctives pour la réduction de la dimensionnalité du problème, facilitant ainsi l'interprétation des données. Cependant, afin d'améliorer davantage la pertinence de ce type d'approches, deux directions d'investigation sont proposées. La première consiste à filtrer les données de sorte à écarter les variables isolées ouassociées à du bruit de fond. Une stratégie qui consiste à créer un groupe supplémentaire de variables, appelé noise cluster", ainsi qu'une stratégie fondée sur la définition de variables latentes de groupe creuses (ou sparse) sont proposées et comparées. La seconde direction d'investigation est le développement d'une procédure de classification de variables dirigée vers l'explication d'une variable de réponse. Un algorithme itératif de classification/extraction est proposé. Il fournit une séquence de variables latentes de groupes ayant de bonnes performances en prédiction. Elles sont également simples à interpréter dans la mesure ou chaque composante prédictrice n'est associée qu'à un sous-ensemble de variables exploratoires conçu pour avoir une structure pratiquement unidimensionnelle. 
330 |a With the development of high-throughput analysis techniques, researchers have adopted systematic approaches to describe simultaneously a large number of variables. However, one of the important challenges lies in the diffculty to summarise and interpret this enormous quantity of information. We adopt a clustering of variables approach (CLV) which allows us to highlight disjunctive structures, and therefore, reduce the dimensionality of the problem and facilitate the interpretation of the data at hand. However, in order to further improve the relevance of such approaches, two directions of investigation are proposed. The first direction involves filtering the data by setting aside atypical variables or variables associated with noise. For this purpose, a strategy to create an additional group of variables, called noise cluster, and a strategy based on the definition of sparse latent variables are proposed and compared. The second direction concerns the development of a clustering of variables procedure directed to the explanation of a response variable. The implementation of iterative algorithms provides a sequence of group latent variables with good predictive performance. These latent variables are also easy to interpret since each predictive component is associated with a subset of variables assumed to have a one-dimensional structure. 
371 1 |a Publication autorisée par le jury 
456 | |0 19213972X  |t Classification de variables autour de variables latentes avec filtrage de l information  |o application à des données en grande dimension  |f Mingkun Chen  |c [Lieu de publication inconnu]  |n [éditeur inconnu]  |d 2014 
541 | |a Clustering of variables around latent components with an information filtering : application to high dimensional data  |z eng 
606 |3 PPN031356834  |a Variables (mathématiques)  |2 rameau 
608 |3 PPN027253139  |a Thèses et écrits académiques  |2 rameau 
610 0 |a Classification de variables 
610 0 |a Variables de bruit 
610 0 |a Variables latentes creuses 
610 0 |a Prédiction 
610 0 |a Données en grande dimension 
686 |a 510  |2 TEF 
700 1 |3 PPN192071882  |a Chen  |b Mingkun  |f 1988-....  |4 070 
701 1 |3 PPN192137859  |a Vigneau  |b Evelyne  |f 19..-....  |4 727 
701 1 |3 PPN069516871  |a Sabatier  |b Robert  |f 1954-....  |4 956  |4 555 
701 1 |3 PPN098854844  |a Derquenne  |b Christian  |f 1960-....  |4 958  |4 555 
701 1 |3 PPN095342087  |a Hardouin  |b Jean-Benoit  |f 1976- ....  |4 555 
701 1 |3 PPN060342528  |a Antignac  |b Jean-Philippe  |4 555 
701 1 |3 PPN114381445  |a Qannari  |b El Mostafa  |4 555 
711 0 2 |3 PPN026403447  |a Université de Nantes  |c 1962-2021  |4 295 
711 0 2 |3 PPN033124884  |a Université de Nantes  |b Faculté des sciences et des techniques  |4 985 
711 0 2 |3 PPN147347793  |a École doctorale Végétal-Environnement-Nutrition-Agro-Alimentaire-Mer  |c Angers  |4 996 
801 3 |a FR  |b Abes  |c 20240506  |g AFNOR 
979 |a SCI 
930 |5 441092104:550785388  |b 441092104  |j g 
991 |5 441092104:550785388  |a Exemplaire modifié automatiquement le 18-07-2024 18:49 
998 |a 748817