Attention sélective en visualisation d'images fixes et animées affichées sur écran : modèles et évaluation de performances - application

Cette étude traite de la modélisation de l'attention visuelle pré-attentive (ou plus communément appelé Bottom-Up) sur images fixes couleurs et sur séquence d'images animées. Il s'agit donc de déterminer de façon automatique et en utilisant uniquement des caractéristiques visuelles de...

Description complète

Enregistré dans:
Détails bibliographiques
Auteur principal : Le Meur Olivier (Auteur)
Collectivités auteurs : Université de Nantes 1962-2021 (Organisme de soutenance), Université de Nantes Faculté des sciences et des techniques (Organisme de soutenance), École doctorale sciences et technologies de l'information et des matériaux Nantes (Organisme de soutenance), Centrale Nantes 1991-.... (Organisme de soutenance), École nationale supérieure des mines Nantes 1990-2016 (Organisme de soutenance)
Autres auteurs : Barba Dominique (Directeur de thèse), Le Callet Patrick (Directeur de thèse)
Format : Thèse ou mémoire
Langue : français
Titre complet : Attention sélective en visualisation d'images fixes et animées affichées sur écran : modèles et évaluation de performances - application / Olivier Le Meur; sous la direction de Dominique Barba; co-encadrant Patrick Le Callet
Publié : [S.l.] : [s.n.] , 2005
Description matérielle : 1 vol. (204 f.)
Note de thèse : Thèse doctorat : Automatique et Informatique appliquée. Traitement du signal et des images : Nantes : 2005
Disponibilité : Publication autorisée par le jury
Sujets :
Description
Résumé : Cette étude traite de la modélisation de l'attention visuelle pré-attentive (ou plus communément appelé Bottom-Up) sur images fixes couleurs et sur séquence d'images animées. Il s'agit donc de déterminer de façon automatique et en utilisant uniquement des caractéristiques visuelles de bas niveaux les zones attirant le regard. Nous proposons d'abord de construire un espace psycho-visuel dans lequel les signaux achromatique et chromatiques sont normalisés en fonction de leur propre seuil différentiel de visibilité. L'intérêt est ici d'exprimer les différentes caractéristiques visuelles avec la même unité, c'est à dire en terme de visibilité. Ensuite, plusieurs transformations sont effectuées pour déterminer la saillance spatiale achromatique et chromatiques, toutes basées sur une modélisation d'inspiration biologique des mécanismes perceptifs humains (suppression de la redondance locale, interactions facilitatrices de type iso-orienté et co-linéaire...). Une méthode de fusion est proposée permettrant de déduire la carte de saillance spatiale finale. L'évaluation des performances de la modélisation est réalisée en comparant nos résultats avec des résultats provenant de tests oculométriques sur un panel d'observateurs. Pour cela, trois métriques sont utilisées: le coefficient de corrélation linéaire, la divergence de Kullback-Leibler et une méthode de classification. Comparativement au modèle de L. Itti considéré comme le modèle de référence, et quelle que soit la métrique utilisée, notre modèle fournit en moyenne de meilleurs résultats. L'extension à la dimension temporelle a été réalisée permettant de détecter les zones saillantes dans les vidéo. A partir des données achromatiques de l'espace psycho-visuel, la saillance temporelle est déduite des contrastes locaux de mouvement de la séquence d'images. La fusion de la saillance spatiale et de la saillance temporelle conduit à la carte de saillance finale. A partir de nouveaux tests oculométriques, une nouvelle évaluation est alors effectuée. En moyenne, le modèle spatio-temporel de saillance détecte 77% des zones saillantes. Finalement, deux applications utilisant les cartes de saillance sont décrites. La première concerne le codage vidéo H.264 pour laquelle l'objectif est de privilégier la qualité sur les zones visuellement importantes. La seconde traite de la création d'images ou de séquences d'images miniatures permettant d'augmenter le confort visuel lorsque l'écran d'affichage est de faible taille.
This thesis describes the modeling of the bottom-up visual attention on color pictures and image sequences. The principal aim is to automatically detect areas of an image that effortlessly attract the attention. The method presented here uses only low level visual features in order to identify the salient regions. Two saliency-based applications are described. We first propose to build a psychovisual space in which achromatic and chromatic data is normalized to its individual differential visibility threshold. This data is expressed in the same unit, namely the visibility. Several biological-based transformations that simulate the most important perception mechanisms (the long-range interactions, the modelling of cortical cells) are used to calculate the achromatic and chromatic salient values. The final saliency map is obtained by a new merging process, which combines the achromatic and chromatic maps. The performance assessment consists of comparing our results to the ground truth stemming from Eye-tracking experiments. Three metrics, linear correlation coefficient, the Kullback-Leibler divergence and a classification method, are used. Moreover, a comparison with reults coming from L. Itti's model is also conducted; the proposed approach yields in average better results, regardless of the metric used. The temporal dimension has been added to the model in order to compute the temporal saliency. The local motion is first computed from the normalized achromatic data. The dominant motion is then deduced. The local motion contrast, which is a relevant estimator of the temporal saliency, is the difference between local and dominant motion. The final spatio-temporal map is the combination of the spatial and the temporal saliency maps. The spatio-temporal model was assessed using new eye tracking experiments. On average, 77% of the salient regions are correctly detected. Two saliency-based applications, saliency-based H.264 coding and saliency-based thumbnails, have been developed. The former deals with a video compression scheme driven by a saliency map: perceptually non-important areas are subjected to higher compression than more relevant parts of the data. The latter concerns the construction of saliency-based thumbnails. The goal is to ease the image viewing on devices with limited display sizes.
Bibliographie : Bibliogr. f. 193-202