Incremental Bayesian network structure learning from data streams

Dans la dernière décennie, l extraction du flux de données est devenue un domaine de recherche très actif. Les principaux défis pour les algorithmes d analyse de flux sont de gérer leur infinité, de s adapter au caractère non stationnaire des distributions de probabilités sous-jacentes, et de foncti...

Full description

Saved in:
Bibliographic Details
Main Author : Yasin Amanullah (Auteur)
Corporate Authors : Université Nantes-Angers-Le Mans - COMUE 2009-2015 (Organisme de soutenance), Université de Nantes 1962-2021 (Organisme de soutenance), École polytechnique de l'Université de Nantes (Organisme de soutenance), École doctorale Sciences et technologies de l'information et mathématiques Nantes (Organisme de soutenance), Laboratoire d Informatique de Nantes Atlantique (UMR 6241) Nantes (Ecole doctorale associée à la thèse)
Other Authors : Leray Philippe (Directeur de thèse)
Format : Thesis
Language : anglais
Title statement : Incremental Bayesian network structure learning from data streams / Amanullah Yasin; sous la direction de Philippe Leray
Published : 2013
Physical Description : 1 vol. (201 p.)
Note de thèse : Thèse de doctorat : Informatique : Nantes : 2013
Availability : Publication autorisée par le jury
Subjects :
Related Items : Has reproduction: Incremental Bayesian network structure learning from data streams
LEADER 06182cam a2200589 4500
001 PPN22161625X
003 http://www.sudoc.fr/22161625X
005 20240425055200.0
029 |a FR  |b 2013NANT2099 
100 |a 20171218d2013 k y0frey0103 ba 
101 0 |a eng  |d fre  |d eng 
102 |a FR 
105 |a a ma 001yy 
106 |a r 
181 |6 z01  |c txt  |2 rdacontent 
181 1 |6 z01  |a i#  |b xxxe## 
182 |6 z01  |c n  |2 rdamedia 
182 1 |6 z01  |a n 
183 1 |6 z01  |a nga  |2 rdacarrier 
200 1 |a Incremental Bayesian network structure learning from data streams  |f Amanullah Yasin  |g sous la direction de Philippe Leray 
210 1 |d 2013 
215 |a 1 vol. (201 p.)  |c ill.  |d 30 cm 
310 |a Publication autorisée par le jury 
314 |a Ecole(s) Doctorale(s) : École doctorale sciences et technologies de l'information et de mathématiques (STIM) (Nantes) 
314 |a Partenaire de recherche : Laboratoire d Informatique de Nantes Atlantique (LINA) (Nantes) (Laboratoire) 
314 |a Autre(s) contribution(s) : Marc Gelgon (Président du jury) ; Pierre-François Marteau, Karim Tabia (Membre du jury) ; Florent Masseglia, Ioannis Tsmardinos (Rapporteurs) 
320 |a Bibliogr. p.183-201 
328 |b Thèse de doctorat  |c Informatique  |e Nantes  |d 2013 
330 |a Dans la dernière décennie, l extraction du flux de données est devenue un domaine de recherche très actif. Les principaux défis pour les algorithmes d analyse de flux sont de gérer leur infinité, de s adapter au caractère non stationnaire des distributions de probabilités sous-jacentes, et de fonctionner sans relecture. Par conséquent, les techniques traditionnelles de fouille ne peuvent s appliquer directement aux flux de données. Le problème s intensifie pour les flux dont les domaines sont de grande dimension tels que ceux provenant des réseaux sociaux, avec plusieurs centaines voire milliers de variables. Pour rester a jour, les algorithmes d apprentissage de réseaux Bayésiens doivent pouvoir intégrer des données nouvelles en ligne. L état de l art en la matiere implique seulement plusieurs dizaines de variables et ces algorithmes ne fonctionnent pas correctement pour des dimensions supérieures. Ce travail est une contribution au problème d apprentissage de structure de réseau Bayésien en ligne pour des domaines de haute dimension, et a donné lieu à plusieurs propositions. D abord, nous avons proposé une approche incrémentale de recherche locale, appelée iMMPC. Ensuite, nous avons proposé une version incrémentale de l algorithme MMHC pour apprendre la structure du réseau. Nous avons également adapté cet algorithme avec des mécanismes de fenêtre glissante et une pondération privilégiant les données nouvelles. Enfin, nous avons démontré la faisabilité de notre approche par de nombreuses expériences sur des jeux de données synthétiques. 
330 |a In the last decade, data stream mining has become an active area of research, due to the importance of its applications and an increase in the generation of streaming data. The major challenges for data stream analysis are unboundedness, adaptiveness in nature and limitations over data access. Therefore, traditional data mining techniques cannot directly apply to the data stream. The problem aggravates for incoming data with high dimensional domains such as social networks, bioinformatics, telecommunication etc, having several hundreds and thousands of variables. It poses a serious challenge for existing Bayesian network structure learning algorithms. To keep abreast with the latest trends, learning algorithms need to incorporate novel data continuously. The existing state of the art in incremental structure learning involves only several tens of variables and they do not scale well beyond a few tens to hundreds of variables. This work investigates a Bayesian network structure learning problem in high dimensional domains. It makes a number of contributions in order to solve these problems. In the first step we proposed an incremental local search approach iMMPC to learn a local skeleton for each variable. Further, we proposed an incremental version of Max-Min Hill-Climbing (MMHC) algorithm to learn the whole structure of the network. We also proposed some guidelines to adapt it with sliding and damped window environments. Finally, experimental results and theoretical justifications that demonstrate the feasibility of our approach demonstrated through extensive experiments on synthetic datasets. 
456 | |0 221616624  |t Incremental Bayesian network structure learning from data streams  |f Amanullah Yasin  |c Nantes  |n Université de Nantes  |d 2013 
541 | |a Apprentissage incrémental de la structure d un réseau bayésien à partir de flux de données  |z fre 
606 |3 PPN029753090  |a Statistique bayésienne  |3 PPN027253139  |x Thèses et écrits académiques  |2 rameau 
606 |3 PPN02734004X  |a Analyse des données  |3 PPN027253139  |x Thèses et écrits académiques  |2 rameau 
606 |3 PPN027940373  |a Apprentissage automatique  |3 PPN027253139  |x Thèses et écrits académiques  |2 rameau 
686 |a 004  |2 TEF 
700 1 |3 PPN221594140  |a Yasin  |b Amanullah  |f 1976-....  |4 070 
702 1 |3 PPN116302011  |a Leray  |b Philippe  |c informaticien  |4 727  |4 555 
702 1 |3 PPN133954633  |a Gelgon  |b Marc  |4 956  |4 555 
702 1 |3 PPN120528681  |a Masseglia  |b Florent  |4 958  |4 555 
702 1 |3 PPN221594175  |a Tsamardinos  |b Ioannis  |4 958  |4 555 
702 1 |3 PPN033981124  |a Marteau  |b Pierre-François  |f 1961-....  |4 555 
702 1 |3 PPN136400329  |a Tabia  |b Karim  |f 1977-....  |4 555 
712 0 2 |3 PPN187401039  |a Université Nantes-Angers-Le Mans - COMUE  |c 2009-2015  |4 295 
712 0 2 |3 PPN026403447  |a Université de Nantes  |c 1962-2021  |4 295 
712 0 2 |3 PPN068449399  |a École polytechnique de l'Université de Nantes  |4 295 
712 0 2 |3 PPN134103211  |a École doctorale Sciences et technologies de l'information et mathématiques  |c Nantes  |4 295  |4 996 
712 0 2 |3 PPN137062508  |a Laboratoire d Informatique de Nantes Atlantique (UMR 6241)  |c Nantes  |4 295  |4 981 
801 3 |a FR  |b Abes  |c 20171220  |g AFNOR 
979 |a SCI 
930 |5 441092104:59895287X  |b 441092104  |j g 
998 |a 799092