Classification de variables autour de variables latentes avec filtrage de l information : application à des données en grande dimension
Avec le développement des techniques d'analyse à haut débit, les chercheurs ont adopté des démarches de profilage systémique qui permettent l'analyse descriptive simultanée d'un grand nombre de variables. Une des diffcultés réside dans la synthèse et l'interprétation de ces nombr...
Enregistré dans:
Auteurs principaux : | , , , , , , |
---|---|
Collectivités auteurs : | , , |
Format : | Thèse ou mémoire |
Langue : | français anglais |
Titre complet : | Classification de variables autour de variables latentes avec filtrage de l information : application à des données en grande dimension / Mingkun Chen; sous la direction de Evelyne Vigneau |
Publié : |
[Lieu de publication inconnu] :
[éditeur inconnu]
, 2014 |
Description matérielle : | 1 vol. (113 p.) |
Condition d'utilisation et de reproduction : | Publication autorisée par le jury |
Note de thèse : | Thèse de doctorat : Sciences mathématiques appliquées,Statistique appliquée : Nantes : 2014 |
Sujets : | |
Documents associés : | Reproduit comme:
Classification de variables autour de variables latentes avec filtrage de l information |
Particularités de l'exemplaire : | BU Sciences, Ex. 1 : Titre temporairement indisponible à la communication |
Résumé : | Avec le développement des techniques d'analyse à haut débit, les chercheurs ont adopté des démarches de profilage systémique qui permettent l'analyse descriptive simultanée d'un grand nombre de variables. Une des diffcultés réside dans la synthèse et l'interprétation de ces nombreuses informations. Nous adoptons ici une approche de classiffcation de variables (CLV) qui permet de mettre en lumière des structures disjonctives pour la réduction de la dimensionnalité du problème, facilitant ainsi l'interprétation des données. Cependant, afin d'améliorer davantage la pertinence de ce type d'approches, deux directions d'investigation sont proposées. La première consiste à filtrer les données de sorte à écarter les variables isolées ouassociées à du bruit de fond. Une stratégie qui consiste à créer un groupe supplémentaire de variables, appelé noise cluster", ainsi qu'une stratégie fondée sur la définition de variables latentes de groupe creuses (ou sparse) sont proposées et comparées. La seconde direction d'investigation est le développement d'une procédure de classification de variables dirigée vers l'explication d'une variable de réponse. Un algorithme itératif de classification/extraction est proposé. Il fournit une séquence de variables latentes de groupes ayant de bonnes performances en prédiction. Elles sont également simples à interpréter dans la mesure ou chaque composante prédictrice n'est associée qu'à un sous-ensemble de variables exploratoires conçu pour avoir une structure pratiquement unidimensionnelle. With the development of high-throughput analysis techniques, researchers have adopted systematic approaches to describe simultaneously a large number of variables. However, one of the important challenges lies in the diffculty to summarise and interpret this enormous quantity of information. We adopt a clustering of variables approach (CLV) which allows us to highlight disjunctive structures, and therefore, reduce the dimensionality of the problem and facilitate the interpretation of the data at hand. However, in order to further improve the relevance of such approaches, two directions of investigation are proposed. The first direction involves filtering the data by setting aside atypical variables or variables associated with noise. For this purpose, a strategy to create an additional group of variables, called noise cluster, and a strategy based on the definition of sparse latent variables are proposed and compared. The second direction concerns the development of a clustering of variables procedure directed to the explanation of a response variable. The implementation of iterative algorithms provides a sequence of group latent variables with good predictive performance. These latent variables are also easy to interpret since each predictive component is associated with a subset of variables assumed to have a one-dimensional structure. |
---|---|
Variantes de titre : | Clustering of variables around latent components with an information filtering : application to high dimensional data |
Notes : | Ecole(s) Doctorale(s) : École doctorale Végétal-Environnement-Nutrition-Agro-Alimentaire-Mer (VENAM) (Nantes) Autre(s) contribution(s) : Robert Sabatier (Président du jury) ; Jean-Benoît Hardouin, Jean-Philippe Antignac, Joachim Kunert, El Mostafa Qannari (Membre(s) du jury) ; Christian Derquenne (Rapporteur(s)) |
Bibliographie : | Bibliogr. p.103-110 |