Perceptual optimization and complexity reduction for real-time video encoding

Cette thèse explore l optimisation perceptuelle et la réduction de la complexité afin d améliorer les schémas de compression vidéo dans un contexte d encodage temps réel. Le travail est divisé en trois parties qui proposent plusieurs types d amélioration. La première contribution introduit un filtre...

Description complète

Enregistré dans:
Détails bibliographiques
Auteurs principaux : Bhat Madhukar (Auteur), Le Callet Patrick (Directeur de thèse), Morin Luce (Président du jury de soutenance), Wien Mathias (Rapporteur de la thèse), Cagnazzo Marco (Rapporteur de la thèse), Jung Joël (Membre du jury), Thiesse Jean-Marc (Membre du jury)
Collectivités auteurs : Université de Nantes 1962-2021 (Organisme de soutenance), École doctorale Mathématiques et sciences et technologies de l'information et de la communication Rennes (Ecole doctorale associée à la thèse), Laboratoire des Sciences du Numérique de Nantes (Laboratoire associé à la thèse)
Format : Thèse ou mémoire
Langue : anglais
Titre complet : Perceptual optimization and complexity reduction for real-time video encoding / Madhukar Bhat; sous la direction de Patrick Le Callet
Publié : 2021
Accès en ligne : Accès Nantes Université
Note sur l'URL : Accès au texte intégral
Note de thèse : Thèse de doctorat : Traitement des images et du signal : Nantes : 2021
Sujets :
LEADER 07330clm a2200661 4500
001 PPN256492387
003 http://www.sudoc.fr/256492387
005 20240523055400.0
029 |a FR  |b 2021NANT4006 
033 |a http://www.theses.fr/2021NANT4006 
035 |a (OCoLC)1259639465 
035 |a STAR161212 
100 |a 20210709d2021 k y0frey0103 ba 
101 0 |a eng  |d fre  |d eng  |2 639-2 
102 |a FR 
105 |a ||||ma 00|yy 
135 |a dr||||||||||| 
181 1 |6 z01  |c txt  |2 rdacontent 
181 1 |6 z01  |a i#  |b xxxe## 
182 1 |6 z01  |c c  |2 rdamedia 
182 1 |6 z01  |a b 
183 |6 z01  |a ceb  |2 RDAfrCarrier 
200 1 |a Perceptual optimization and complexity reduction for real-time video encoding  |f Madhukar Bhat  |g sous la direction de Patrick Le Callet 
214 1 |d 2021 
230 |a Données textuelles 
304 |a Titre provenant de l'écran-titre 
314 |a Ecole(s) Doctorale(s) : École doctorale Mathématiques et sciences et technologies de l'information et de la communication (Rennes) 
314 |a Partenaire(s) de recherche : Laboratoire des Sciences du Numérique de Nantes (Laboratoire) 
314 |a Autre(s) contribution(s) : Luce Morin (Président du jury) ; Joël Jung, Jean-Marc Thiesse (Membre(s) du jury) ; Mathias Wien, Marco Cagnazzo (Rapporteur(s)) 
328 0 |b Thèse de doctorat  |c Traitement des images et du signal  |e Nantes  |d 2021 
330 |a Cette thèse explore l optimisation perceptuelle et la réduction de la complexité afin d améliorer les schémas de compression vidéo dans un contexte d encodage temps réel. Le travail est divisé en trois parties qui proposent plusieurs types d amélioration. La première contribution introduit un filtre de prétraitement perceptuel basé sur un modèle du système visuel humain. Ce filtre est paramétrable pour plusieurs conditions de visualisation, nous proposons des réglages optimisés pour deux conditions standards. Une étude sur la précision de différentes métriques de qualité visuelle dans le cadre spécifique de la mesure des performances de pré-filtrage est également menée. La deuxième partie de la thèse propose une méthodologie basée sur la classification par apprentissage automatique pour prédire et sélectionner de manière adaptative la meilleure résolution d encodage dans un scénario de codage en une passe. À cette fin, trois classificateurs différents ont été considérés : Support Vector Machine, Random Forest (RF) et Multi-Layer Perceptron. Dans le but d évaluer et piloter le gain perceptuel à un débit donné, plusieurs métriques de qualité visuelle ont ensuite été caractérisées et comparées. Ceci a été mené pour plusieurs niveaux de qualité du point de vue de l incertitude de la qualité subjective de la vérité terrain. En outre, une nouvelle métrique basée sur RF, perceptuellement plus précise, a été introduite pour la formation des classificateurs. Le troisième ensemble de contributions se concentre sur la prise en charge de la partie de codage la plus complexe du nouveau standard Versatile Video Coding (VVC) : les critères de décision pour le partitionnement Multi-Type Tree. Une nouvelle méthode de décision de partitionnement basée Apprentissage Machine est proposée couvrant tous les types de partitionnement en intra et inter et particulièrement appropriée pour un encodeur matériel temps réel. Une approche basée CNN a ainsi été utilisée, avec des classificateurs pour différents niveaux, formes et types de partitionnement. Cette méthode est finalement évaluée par rapport à une approche exhaustive et démontre des performances prometteuses qui sont soigneusement analysées. 
330 |a This thesis explores perceptual optimization and complexity reduction towards improving video compression schemes in a real-time encoding framework context. Different strategies are proposed to address perceptual enhancements and complexity reduction. The work is divided into three main parts that tackle several aspects to improve real-time video encoding. The first contribution introduces a perceptual pre-processing filter based on a model of the Human Visual System. This preprocessing filter can be tuned and has been optimized for multiple viewing conditions. An investigation of different objective quality metric s accuracy in measuring the performance of pre-processing is also reported. The second part of the thesis proposes a machine learning classification-based methodology to adaptively predict and select the best encoding resolution in a single-pass encoding scenario. For this purpose, three different classifiers have been considered: Support Vector Machine, Random Forest (RF), and Multi-Layer Perceptron. Several objective quality metrics have been characterized and benchmarked for various quality ranges concerning the uncertainty of subjective quality ground-truth to evaluate and drive the perceptual gain at a given bitrate. Also, a new, subjectively more accurate RFbased fusion metric has been introduced for ground truth dataset annotation of classifiers. The final part focuses on tackling the most challenging encoding part of the new Versatile Video Coding (VVC) standard: the Multi-Type Tree partitioning decision. A new ML-based partitioning decision criteria is proposed covering all standard partitioning possibilities for both intra and inter, especially suitable for realtime hardware encoder. A CNN-based approach was considered, offering classifiers for different coding unit depth, shapes, and picture types. 
337 |a Configuration requise : un logiciel capable de lire un fichier au format : PDF 
541 | |a Optimisation perceptuelle et réduction de complexité d encodage vidéo dans un contexte temps-réel  |z fre 
606 |3 PPN027282767  |a Codage  |3 PPN027333930  |x Temps réel (informatique)  |2 rameau 
606 |3 PPN027940373  |a Apprentissage automatique  |2 rameau 
606 |3 PPN035817321  |a Compression vidéo  |2 rameau 
608 |3 PPN027253139  |a Thèses et écrits académiques  |2 rameau 
610 0 |a ... 
676 |a 621.382 
686 |a 620  |2 TEF 
700 1 |3 PPN25646832X  |a Bhat  |b Madhukar  |f 1992-....  |4 070 
701 1 |3 PPN060370068  |a Le Callet  |b Patrick  |f 19..-....  |4 727 
701 1 |3 PPN059851171  |a Morin  |b Luce  |f 19..-....  |c chercheuse en informatique  |4 956 
701 1 |3 PPN190112220  |a Wien  |b Mathias  |f 19..-....  |4 958 
701 1 |3 PPN169751066  |a Cagnazzo  |b Marco  |f 19..-....  |4 958 
701 1 |3 PPN060868821  |a Jung  |b Joël  |f 19..-....  |c informaticien  |4 555 
701 1 |3 PPN166836621  |a Thiesse  |b Jean-Marc  |4 555 
711 0 2 |3 PPN026403447  |a Université de Nantes  |c 1962-2021  |4 295 
711 0 2 |3 PPN204770424  |a École doctorale Mathématiques et sciences et technologies de l'information et de la communication  |c Rennes  |4 996 
711 0 2 |3 PPN203637585  |a Laboratoire des Sciences du Numérique de Nantes  |4 981 
801 3 |a FR  |b Abes  |c 20230302  |g AFNOR 
856 4 |q PDF  |s 4541839  |u http://www.theses.fr/2021NANT4006/document  |z Accès au texte intégral 
856 4 |u https://archive.bu.univ-nantes.fr/pollux/show/show?id=001b7759-ddc3-4360-ac89-0d9bb58d6f3a 
856 4 |u http://www.theses.fr/2021NANT4006/abes 
930 |5 441099901:778943577  |b 441099901  |j g 
991 |5 441099901:778943577  |a exemplaire créé automatiquement par STAR 
998 |a 899091