Classification de variables autour de variables latentes avec filtrage de l information : application à des données en grande dimension

Avec le développement des techniques d'analyse à haut débit, les chercheurs ont adopté des démarches de profilage systémique qui permettent l'analyse descriptive simultanée d'un grand nombre de variables. Une des diffcultés réside dans la synthèse et l'interprétation de ces nombr...

Description complète

Enregistré dans:
Détails bibliographiques
Auteurs principaux : Chen Mingkun (Auteur), Vigneau Evelyne (Directeur de thèse), Sabatier Robert (Président du jury de soutenance, Membre du jury), Derquenne Christian (Rapporteur de la thèse, Membre du jury), Hardouin Jean-Benoit (Membre du jury), Antignac Jean-Philippe (Membre du jury), Qannari El Mostafa (Membre du jury)
Collectivités auteurs : Université de Nantes 1962-2021 (Organisme de soutenance), Université de Nantes Faculté des sciences et des techniques (Autre partenaire associé à la thèse), École doctorale Végétal-Environnement-Nutrition-Agro-Alimentaire-Mer Angers (Ecole doctorale associée à la thèse)
Format : Thèse ou mémoire
Langue : français
anglais
Titre complet : Classification de variables autour de variables latentes avec filtrage de l information : application à des données en grande dimension / Mingkun Chen; sous la direction de Evelyne Vigneau
Publié : [Lieu de publication inconnu] : [éditeur inconnu] , 2014
Description matérielle : 1 vol. (113 p.)
Condition d'utilisation et de reproduction : Publication autorisée par le jury
Note de thèse : Thèse de doctorat : Sciences mathématiques appliquées,Statistique appliquée : Nantes : 2014
Sujets :
Documents associés : Reproduit comme: Classification de variables autour de variables latentes avec filtrage de l information
Particularités de l'exemplaire : BU Sciences, Ex. 1 :
Titre temporairement indisponible à la communication

Description
Résumé : Avec le développement des techniques d'analyse à haut débit, les chercheurs ont adopté des démarches de profilage systémique qui permettent l'analyse descriptive simultanée d'un grand nombre de variables. Une des diffcultés réside dans la synthèse et l'interprétation de ces nombreuses informations. Nous adoptons ici une approche de classiffcation de variables (CLV) qui permet de mettre en lumière des structures disjonctives pour la réduction de la dimensionnalité du problème, facilitant ainsi l'interprétation des données. Cependant, afin d'améliorer davantage la pertinence de ce type d'approches, deux directions d'investigation sont proposées. La première consiste à filtrer les données de sorte à écarter les variables isolées ouassociées à du bruit de fond. Une stratégie qui consiste à créer un groupe supplémentaire de variables, appelé noise cluster", ainsi qu'une stratégie fondée sur la définition de variables latentes de groupe creuses (ou sparse) sont proposées et comparées. La seconde direction d'investigation est le développement d'une procédure de classification de variables dirigée vers l'explication d'une variable de réponse. Un algorithme itératif de classification/extraction est proposé. Il fournit une séquence de variables latentes de groupes ayant de bonnes performances en prédiction. Elles sont également simples à interpréter dans la mesure ou chaque composante prédictrice n'est associée qu'à un sous-ensemble de variables exploratoires conçu pour avoir une structure pratiquement unidimensionnelle.
With the development of high-throughput analysis techniques, researchers have adopted systematic approaches to describe simultaneously a large number of variables. However, one of the important challenges lies in the diffculty to summarise and interpret this enormous quantity of information. We adopt a clustering of variables approach (CLV) which allows us to highlight disjunctive structures, and therefore, reduce the dimensionality of the problem and facilitate the interpretation of the data at hand. However, in order to further improve the relevance of such approaches, two directions of investigation are proposed. The first direction involves filtering the data by setting aside atypical variables or variables associated with noise. For this purpose, a strategy to create an additional group of variables, called noise cluster, and a strategy based on the definition of sparse latent variables are proposed and compared. The second direction concerns the development of a clustering of variables procedure directed to the explanation of a response variable. The implementation of iterative algorithms provides a sequence of group latent variables with good predictive performance. These latent variables are also easy to interpret since each predictive component is associated with a subset of variables assumed to have a one-dimensional structure.
Variantes de titre : Clustering of variables around latent components with an information filtering : application to high dimensional data
Notes : Ecole(s) Doctorale(s) : École doctorale Végétal-Environnement-Nutrition-Agro-Alimentaire-Mer (VENAM) (Nantes)
Autre(s) contribution(s) : Robert Sabatier (Président du jury) ; Jean-Benoît Hardouin, Jean-Philippe Antignac, Joachim Kunert, El Mostafa Qannari (Membre(s) du jury) ; Christian Derquenne (Rapporteur(s))
Bibliographie : Bibliogr. p.103-110