Efficient Stream Analysis and its Application to Big Data Processing

L analyse de flux de données est utilisée dans beaucoup de contexte où la masse des données et/ou le débit auquel elles sont générées, excluent d autres approches (par exemple le traitement par lots). Le modèle flux fourni des solutions aléatoires et/ou fondées sur des approximations pour calculer d...

Full description

Saved in:
Bibliographic Details
Main Authors : Rivetti di Val Cervo Nicolo (Auteur), Mostefaoui Achour (Directeur de thèse), Busnel Yann (Directeur de thèse), Querzoni Leonardo (Directeur de thèse), Baldoni Roberto (Président du jury de soutenance), Cormode Graham (Rapporteur de la thèse), Steen Maarten van (Rapporteur de la thèse), Maabout Sofian (Membre du jury), Magnien Clémence (Membre du jury)
Corporate Authors : Université de Nantes 1962-2021 (Organisme de soutenance), Università degli studi La Sapienza Rome (Organisme de cotutelle), École doctorale Sciences et technologies de l'information et mathématiques Nantes (Ecole doctorale associée à la thèse), Laboratoire d Informatique de Nantes Atlantique (UMR 6241) Nantes (Laboratoire associé à la thèse), Université Bretagne Loire 2016-2019 (Autre partenaire associé à la thèse)
Format : Thesis
Language : anglais
Title statement : Efficient Stream Analysis and its Application to Big Data Processing / Nicolo Rivetti di Val Cervo; sous la direction de Achour Mostefaoui et de Yann Busnel et de Leonardo Querzoni
Published : 2016
Online Access : Via Nantes Université network
Online Access note : Accès au texte intégral
Note de thèse : Thèse de doctorat : Informatique et applications : Nantes : 2016
Thèse de doctorat : Informatique et applications : Università degli studi La Sapienza (Rome) : 2016
Subjects :
LEADER 06480clm a2200709 4500
001 PPN203605640
003 http://www.sudoc.fr/203605640
005 20240425055200.0
029 |a FR  |b 2016NANT4046 
033 |a http://www.theses.fr/2016NANT4046 
035 |a (OCoLC)1371481358 
035 |a STAR77602 
100 |a 20170822d2016 k y0frey0103 ba 
101 0 |a eng  |d fre  |d eng  |2 639-2 
102 |a FR 
105 |a ||||ma 00|yy 
135 |a dr||||||||||| 
181 1 |6 z01  |c txt  |2 rdacontent 
181 1 |6 z01  |a i#  |b xxxe## 
182 1 |6 z01  |c c  |2 rdamedia 
182 1 |6 z01  |a b 
183 |6 z01  |a ceb  |2 RDAfrCarrier 
200 1 |a Efficient Stream Analysis and its Application to Big Data Processing  |f Nicolo Rivetti di Val Cervo  |g sous la direction de Achour Mostefaoui et de Yann Busnel et de Leonardo Querzoni 
214 1 |d 2016 
230 |a Données textuelles 
300 |a Thèse soutenue en co-tutelle 
304 |a Titre provenant de l'écran-titre 
314 |a Ecole(s) Doctorale(s) : École doctorale Sciences et technologies de l'information et mathématiques (Nantes) 
314 |a Partenaire(s) de recherche : Laboratoire d Informatique de Nantes Atlantique (UMR 6241) (Nantes) (Laboratoire), Université Bretagne Loire (COMUE) 
314 |a Autre(s) contribution(s) : Roberto Baldoni (Président du jury) ; Sofian Maabout, Clémence Magnien (Membre(s) du jury) ; Graham Cormode, Maarten van Steen (Rapporteur(s)) 
328 0 |b Thèse de doctorat  |c Informatique et applications  |e Nantes  |d 2016 
328 0 |b Thèse de doctorat  |c Informatique et applications  |e Università degli studi La Sapienza (Rome)  |d 2016 
330 |a L analyse de flux de données est utilisée dans beaucoup de contexte où la masse des données et/ou le débit auquel elles sont générées, excluent d autres approches (par exemple le traitement par lots). Le modèle flux fourni des solutions aléatoires et/ou fondées sur des approximations pour calculer des fonctions d intérêt sur des flux (repartis) de n-uplets, en considérant le pire cas, et en essayant de minimiser l utilisation des ressources. En particulier, nous nous intéressons à deux problèmes classiques : l estimation de fréquence et les poids lourds. Un champ d application moins courant est le traitement de flux qui est d une certaine façon un champ complémentaire aux modèle flux. Celui-ci fournis des systèmes pour effectuer des calculs génériques sur les flux en temps réel souple, qui passent à l échèle. Cette dualité nous permet d appliquer des solutions du modèle flux pour optimiser des systèmes de traitement de flux. Dans cette thèse, nous proposons un nouvel algorithme pour la détection d éléments surabondants dans des flux repartis, ainsi que deux extensions d un algorithme classique pour l estimation des fréquences des items. Nous nous intéressons également à deux problèmes : construire un partitionnement équitable de l univers des n-uplets par rapport à leurs poids et l estimation des valeurs de ces n-uplets. Nous utilisons ces algorithmes pour équilibrer et/ou délester la charge dans les systèmes de traitement de flux. 
330 |a Nowadays stream analysis is used in many context where the amount of data and/or the rate at which it is generated rules out other approaches (e.g., batch processing). The data streaming model provides randomized and/or approximated solutions to compute specific functions over (distributed) stream(s) of data-items in worst case scenarios, while striving for small resources usage. In particular, we look into two classical and related data streaming problems: frequency estimation and (distributed) heavy hitters. A less common field of application is stream processing which is somehow complementary and more practical, providing efficient and highly scalable frameworks to perform soft real-time generic computation on streams, relying on cloud computing. This duality allows us to apply data streaming solutions to optimize stream processing systems. In this thesis, we provide a novel algorithm to track heavy hitters in distributed streams and two extensions of a well-known algorithm to estimate the frequencies of data items. We also tackle two related problems and their solution: provide even partitioning of the item universe based on their weights and provide an estimation of the values carried by the items of the stream. We then apply these results to both network monitoring and stream processing. In particular, we leverage these solutions to perform load shedding as well as to load balance parallelized operators in stream processing systems. 
337 |a Configuration requise : un logiciel capable de lire un fichier au format : PDF 
541 | |a Analyse efficace de flux de données et applications au traitement des grandes masses de données  |z fre 
606 |3 PPN02734004X  |a Analyse des données  |2 rameau 
608 |3 PPN027253139  |a Thèses et écrits académiques  |2 rameau 
610 0 |a Modèle flux 
610 0 |a Délestage de charge 
686 |a 004  |2 TEF 
700 1 |3 PPN203598830  |a Rivetti di Val Cervo  |b Nicolo  |f 1986-....  |4 070 
701 1 |3 PPN092408834  |a Mostefaoui  |b Achour  |4 727 
701 1 |3 PPN129816647  |a Busnel  |b Yann  |f 1981-....  |4 727 
701 1 |3 PPN203600169  |a Querzoni  |b Leonardo  |4 727 
701 1 |3 PPN121379639  |a Baldoni  |b Roberto  |4 956 
701 1 |3 PPN113046294  |a Cormode  |b Graham  |f 1977-  |4 958 
701 1 |3 PPN069559317  |a Steen  |b Maarten van  |4 958 
701 1 |3 PPN148141978  |a Maabout  |b Sofian  |f 1967-....  |4 555 
701 1 |3 PPN076336115  |a Magnien  |b Clémence  |f 1977-....  |4 555 
711 0 2 |3 PPN026403447  |a Université de Nantes  |c 1962-2021  |4 295 
711 0 2 |3 PPN026430711  |a Università degli studi La Sapienza  |c Rome  |4 995 
711 0 2 |3 PPN134103211  |a École doctorale Sciences et technologies de l'information et mathématiques  |c Nantes  |4 996 
711 0 2 |3 PPN137062508  |a Laboratoire d Informatique de Nantes Atlantique (UMR 6241)  |c Nantes  |4 981 
711 0 2 |3 PPN191639044  |a Université Bretagne Loire  |c 2016-2019  |4 985 
801 3 |a FR  |b Abes  |c 20230302  |g AFNOR 
856 4 |q PDF  |s 3452253  |u http://www.theses.fr/2016NANT4046/document  |z Accès au texte intégral 
856 4 |u https://archive.bu.univ-nantes.fr/pollux/show.action?id=5d78f4bc-992e-4cbd-97be-3a3102101202 
856 4 |u http://www.theses.fr/2016NANT4046/abes 
930 |5 441099901:778932478  |b 441099901  |j g 
991 |5 441099901:778932478  |a exemplaire créé automatiquement par STAR 
998 |a 783514