Perceptual optimization and complexity reduction for real-time video encoding

Cette thèse explore l optimisation perceptuelle et la réduction de la complexité afin d améliorer les schémas de compression vidéo dans un contexte d encodage temps réel. Le travail est divisé en trois parties qui proposent plusieurs types d amélioration. La première contribution introduit un filtre...

Description complète

Enregistré dans:
Détails bibliographiques
Auteurs principaux : Bhat Madhukar (Auteur), Le Callet Patrick (Directeur de thèse), Morin Luce (Président du jury de soutenance), Wien Mathias (Rapporteur de la thèse), Cagnazzo Marco (Rapporteur de la thèse), Jung Joël (Membre du jury), Thiesse Jean-Marc (Membre du jury)
Collectivités auteurs : Université de Nantes 1962-2021 (Organisme de soutenance), École doctorale Mathématiques et sciences et technologies de l'information et de la communication Rennes (Ecole doctorale associée à la thèse), Laboratoire des Sciences du Numérique de Nantes (Laboratoire associé à la thèse)
Format : Thèse ou mémoire
Langue : anglais
Titre complet : Perceptual optimization and complexity reduction for real-time video encoding / Madhukar Bhat; sous la direction de Patrick Le Callet
Publié : 2021
Accès en ligne : Accès Nantes Université
Note sur l'URL : Accès au texte intégral
Note de thèse : Thèse de doctorat : Traitement des images et du signal : Nantes : 2021
Sujets :
Description
Résumé : Cette thèse explore l optimisation perceptuelle et la réduction de la complexité afin d améliorer les schémas de compression vidéo dans un contexte d encodage temps réel. Le travail est divisé en trois parties qui proposent plusieurs types d amélioration. La première contribution introduit un filtre de prétraitement perceptuel basé sur un modèle du système visuel humain. Ce filtre est paramétrable pour plusieurs conditions de visualisation, nous proposons des réglages optimisés pour deux conditions standards. Une étude sur la précision de différentes métriques de qualité visuelle dans le cadre spécifique de la mesure des performances de pré-filtrage est également menée. La deuxième partie de la thèse propose une méthodologie basée sur la classification par apprentissage automatique pour prédire et sélectionner de manière adaptative la meilleure résolution d encodage dans un scénario de codage en une passe. À cette fin, trois classificateurs différents ont été considérés : Support Vector Machine, Random Forest (RF) et Multi-Layer Perceptron. Dans le but d évaluer et piloter le gain perceptuel à un débit donné, plusieurs métriques de qualité visuelle ont ensuite été caractérisées et comparées. Ceci a été mené pour plusieurs niveaux de qualité du point de vue de l incertitude de la qualité subjective de la vérité terrain. En outre, une nouvelle métrique basée sur RF, perceptuellement plus précise, a été introduite pour la formation des classificateurs. Le troisième ensemble de contributions se concentre sur la prise en charge de la partie de codage la plus complexe du nouveau standard Versatile Video Coding (VVC) : les critères de décision pour le partitionnement Multi-Type Tree. Une nouvelle méthode de décision de partitionnement basée Apprentissage Machine est proposée couvrant tous les types de partitionnement en intra et inter et particulièrement appropriée pour un encodeur matériel temps réel. Une approche basée CNN a ainsi été utilisée, avec des classificateurs pour différents niveaux, formes et types de partitionnement. Cette méthode est finalement évaluée par rapport à une approche exhaustive et démontre des performances prometteuses qui sont soigneusement analysées.
This thesis explores perceptual optimization and complexity reduction towards improving video compression schemes in a real-time encoding framework context. Different strategies are proposed to address perceptual enhancements and complexity reduction. The work is divided into three main parts that tackle several aspects to improve real-time video encoding. The first contribution introduces a perceptual pre-processing filter based on a model of the Human Visual System. This preprocessing filter can be tuned and has been optimized for multiple viewing conditions. An investigation of different objective quality metric s accuracy in measuring the performance of pre-processing is also reported. The second part of the thesis proposes a machine learning classification-based methodology to adaptively predict and select the best encoding resolution in a single-pass encoding scenario. For this purpose, three different classifiers have been considered: Support Vector Machine, Random Forest (RF), and Multi-Layer Perceptron. Several objective quality metrics have been characterized and benchmarked for various quality ranges concerning the uncertainty of subjective quality ground-truth to evaluate and drive the perceptual gain at a given bitrate. Also, a new, subjectively more accurate RFbased fusion metric has been introduced for ground truth dataset annotation of classifiers. The final part focuses on tackling the most challenging encoding part of the new Versatile Video Coding (VVC) standard: the Multi-Type Tree partitioning decision. A new ML-based partitioning decision criteria is proposed covering all standard partitioning possibilities for both intra and inter, especially suitable for realtime hardware encoder. A CNN-based approach was considered, offering classifiers for different coding unit depth, shapes, and picture types.
Variantes de titre : Optimisation perceptuelle et réduction de complexité d encodage vidéo dans un contexte temps-réel
Notes : Titre provenant de l'écran-titre
Ecole(s) Doctorale(s) : École doctorale Mathématiques et sciences et technologies de l'information et de la communication (Rennes)
Partenaire(s) de recherche : Laboratoire des Sciences du Numérique de Nantes (Laboratoire)
Autre(s) contribution(s) : Luce Morin (Président du jury) ; Joël Jung, Jean-Marc Thiesse (Membre(s) du jury) ; Mathias Wien, Marco Cagnazzo (Rapporteur(s))
Configuration requise : Configuration requise : un logiciel capable de lire un fichier au format : PDF