Classification Multi-Labels en flux : comparaisons d'approches et nouvelles propositions

Avec l'évolution conjointe des volumes de données à traiter et de la nature même de ces données, les algorithmes de classification multi-labels sont confrontés à un défi majeur : leur capacité à apprendre des modèles à partir de données en flux et à s'adapter aux changements de leurs distr...

Description complète

Enregistré dans:
Détails bibliographiques
Auteurs principaux : Wang Xihui (Auteur), Kuntz-Cosperec Pascale (Directeur de thèse), Lebbah Mustapha (Président du jury de soutenance), Velcin Julien (Rapporteur de la thèse), Lamirel Jean-Charles (Rapporteur de la thèse), Brun Armelle (Membre du jury), Meyer Franck (Membre du jury)
Collectivités auteurs : Nantes Université 2022-.... (Organisme de soutenance), École doctorale Mathématiques et Sciences et Technologies du numérique, de l Information et de la Communication Nantes 2022-.... (Ecole doctorale associée à la thèse), Laboratoire des Sciences du Numérique de Nantes (Laboratoire associé à la thèse)
Format : Thèse ou mémoire
Langue : français
Titre complet : Classification Multi-Labels en flux : comparaisons d'approches et nouvelles propositions / Xihui Wang; sous la direction de Pascale Kuntz-Cosperec
Publié : 2023
Accès en ligne : Accès Nantes Université
Note sur l'URL : Accès au texte intégral
Note de thèse : Thèse de doctorat : Informatique : Nantes Université : 2023
Sujets :
LEADER 06580nlm a2200637 4500
001 PPN270099336
003 http://www.sudoc.fr/270099336
005 20240523055400.0
029 |a FR  |b 2023NANU4008 
033 |a http://www.theses.fr/2023NANU4008 
035 |a STAR200114 
100 |a 20230526d2023 k y0frey0103 ba 
101 0 |a fre  |d fre  |d eng  |2 639-2 
102 |a FR 
105 |a ||||ma 00|yy 
135 |a dr||||||||||| 
181 |6 z01  |c txt  |2 rdacontent 
181 1 |6 z01  |a i#  |b xxxe## 
182 |6 z01  |c c  |2 rdamedia 
182 1 |6 z01  |a b 
183 |6 z01  |a ceb  |2 RDAfrCarrier 
200 1 |a Classification Multi-Labels en flux  |e comparaisons d'approches et nouvelles propositions  |f Xihui Wang  |g sous la direction de Pascale Kuntz-Cosperec 
214 1 |d 2023 
230 |a Données textuelles 
304 |a Titre provenant de l'écran-titre 
314 |a Ecole(s) Doctorale(s) : École Doctorale Mathématiques et Sciences et Technologies du numérique, de l Information et de la Communication (Nantes) 
314 |a Partenaire(s) de recherche : Laboratoire des Sciences du Numérique de Nantes (Laboratoire) 
314 |a Autre(s) contribution(s) : Mustapha Lebbah (Président du jury) ; Armelle Brun, Franck Meyer (Membre(s) du jury) ; Julien Velcin, Jean-Charles Lamirel (Rapporteur(s)) 
328 0 |b Thèse de doctorat  |c Informatique  |e Nantes Université  |d 2023 
330 |a Avec l'évolution conjointe des volumes de données à traiter et de la nature même de ces données, les algorithmes de classification multi-labels sont confrontés à un défi majeur : leur capacité à apprendre des modèles à partir de données en flux et à s'adapter aux changements de leurs distributions statistiques au fil du temps en prenant en compte des ressources matérielles limitées en stockage et en calcul. Dans cette thèse, nous abordons ce défi pour deux types de données : des flux stationnaires et non stationnaires. Pour la classification multi-labels de flux stationnaires nous avons développé un nouvel algorithme (MLT-ML) qui, avec une faible complexité temporelle, permet d'obtenir des performances en prédiction compétitives en exploitant les corrélations entre labels pour partitionner l'espace de recherche à chaque instant et réduire ainsi la complexité de l'apprentissage. Pour la classification de flux non-stationnaires nous avons développé successivement deux nouveaux algorithmes (ODM et A2ML) qui combinent une mémoire à court terme et une mémoire à long terme. Cette combinaison permet une adaptation efficace des modèles d'apprentissage aux dérives de concepts. En particulier, nous avons montré expérimentalement l'apport dans A2ML de l'introduction d'une règle d'échantillonnage biaisée pour la gestion de la mémoire à long terme ainsi que l'efficacité de la création de nouveaux clusters associés à l'apparition de nouveaux labels dans le flux. Pour combler l'absence de protocoles d'évaluation consensuels pour la classification multi-labels sur des données en flux, nous avons développé un nouveau cadre de simulation qui permet d'introduire explicitement des dérives de différents types et donc de mieux comprendre les changements de comportements des différentes ,stratégies de classification. Les comparaisons avec les meilleurs algorithmes de l'état de l'art menées sur des flux non stationnaires de plus de 50 000 exemples confirment le niveau élevé de performances de notre nouvel algorithme A2ML qui a une complexité temporelle significativement plus réduite que tous les autres. 
330 |a Due to the ever-increasing number of current applications, multi-label classification algorithms are facing a major challenge: their capacity for learning models from streaming data that include changes in distribution over time, while constantly coming up against limited computational and storage resources. ln this thesis, we first study the multi-label classification problem on stationary streams and propose a new algorithm MLT-ML. This algorithm not only has a very low time complexity, but also has a high prediction performance by using the labels' correlation to partition the label space at each time. Then, we provide two new algorithms, ODM and A2ML, for non-stationary streams, which both combine a short-term memory with a long-term one. This combination ensures an efficient adaptation to the various types of concept drift. ln particular, by using the biased reservoir sampling strategy and creating new clusters for new labels, A2ML can adapt to drift more effectively than ODM and its efficiency will not decrease over time. ln addition, in order to further understand the behavior of the algorithm on the non-stationary stream, we also propose a new evaluation protocol to generate various types of concept drift. The experimentation confirmes A2ML's high levels of performance, and reveal computation times that are lower than those of the state of the art. 
337 |a Configuration requise : un logiciel capable de lire un fichier au format : PDF 
541 | |a Multi-Labels Stream Classification  |e comparisons of approaches and new proposals  |z eng 
606 |3 PPN25537285X  |a Architecture dataflow  |2 rameau 
606 |3 PPN027940373  |a Apprentissage automatique  |2 rameau 
608 |3 PPN027253139  |a Thèses et écrits académiques  |2 rameau 
610 0 |a Dérive conceptuelle 
610 0 |a Analyse prédictive 
686 |a 004  |2 TEF 
700 1 |3 PPN27009525X  |a Wang  |b Xihui  |f 1994-....  |4 070 
701 1 |3 PPN103904638  |a Kuntz-Cosperec  |b Pascale  |4 727 
701 1 |3 PPN144970759  |a Lebbah  |b Mustapha  |f 19..-....  |4 956 
701 1 |3 PPN098823957  |a Velcin  |b Julien  |f 1978-....  |4 958 
701 1 |3 PPN182222918  |a Lamirel  |b Jean-Charles  |4 958 
701 1 |3 PPN071349251  |a Brun  |b Armelle  |f 1976 - ....  |4 555 
701 1 |3 PPN270096094  |a Meyer  |b Franck  |4 555 
711 0 2 |3 PPN258086599  |a Nantes Université  |c 2022-....  |4 295 
711 0 2 |3 PPN268274525  |a École doctorale Mathématiques et Sciences et Technologies du numérique, de l Information et de la Communication  |c Nantes  |c 2022-....  |4 996 
711 0 2 |3 PPN203637585  |a Laboratoire des Sciences du Numérique de Nantes  |4 981 
801 3 |a FR  |b Abes  |c 20230526  |g AFNOR 
856 4 |q PDF  |s 81335759  |u http://www.theses.fr/2023NANU4008/document  |z Accès au texte intégral 
856 4 |u http://www.theses.fr/2023NANU4008/abes 
856 4 |u https://tel.archives-ouvertes.fr/tel-04107514 
930 |5 441099901:790064960  |b 441099901  |j g 
991 |5 441099901:790064960  |a exemplaire créé automatiquement par STAR 
998 |a 943416