Prédiction de parcours Web : vers un dépôt légal du Web français

Les recherches sur les modèles de prédiction de parcours sur le Web ont largement inspiré les chercheurs ces dernières années. Beaucoup d'algorithmes ont été proposés tels que les systèmes de recommandations, les guides de lecture, les caches serveur et les sites adaptatifs. L'objectif est...

Description complète

Enregistré dans:
Détails bibliographiques
Auteur principal : Hafri Younés (Auteur)
Collectivités auteurs : Université de Nantes 1962-2021 (Organisme de soutenance), École doctorale sciences et technologies de l'information et des matériaux Nantes (Ecole doctorale associée à la thèse)
Autres auteurs : Djeraba Chaabane (Directeur de thèse)
Format : Thèse ou mémoire
Langue : français
Titre complet : Prédiction de parcours Web : vers un dépôt légal du Web français / Younès Hafri; Chaabane Djeraba, directeur de thèse
Publié : [S.l.] : [s.n.] , 2005
Description matérielle : 1 vol. (177 + 27 p.)
Note de thèse : Thèse doctorat : Informatique : Nantes : 2005
Disponibilité : Publication autorisée par le jury
Sujets :
Description
Résumé : Les recherches sur les modèles de prédiction de parcours sur le Web ont largement inspiré les chercheurs ces dernières années. Beaucoup d'algorithmes ont été proposés tels que les systèmes de recommandations, les guides de lecture, les caches serveur et les sites adaptatifs. L'objectif est toujours la réduction des temps de latences perçus par les utilisateurs à la recherche d'une information. Les modèles de Markov d'ordre k>1 sont bien adaptés pour répondre à ce besoin. Bien que ces modèles soient plus précis, ils sont pénalisés par leur nombre d'états et leur faible couverture des données. Cette thèse propose de résoudre cette problématique par la construction d'un modèle appelé Chaînes de Markov Combinées. Ce dernier fusionne les propriétés de plusieurs chaînes afin d'obtenir un ensemble d'états très réduit, des prédictions précises et une bonne couverture des données. D'autre part, nous avons développé un crawler web hautement performant, flexible par son déploiement sur un cluster de machines et sa gestion des pannes. Enfin, nous avons comparé ses performances par rapport aux crawlers existants de la littérature.
The problem of predicting Web user accesses has recently attracted significant attention. Several algorithms have been proposed, which find important applications : recommender systems, web prefetching, adaptive web sites, etc. The core issue is the developement of an effective method to decrease the user perceived latency. This is done by deducing the forthcoming page accesses based on the past pages accessed. Markov models are well-suited for this purpose. Although higher-order Markov models have good predictions result, they have several limitations : high state-space complexity and reduced coverage. These affect the prediction performance. This thesis proposes a new model. The technique intelligently reduces and combines varying Markov-order so that the resulting model has a low state complexity, improved prediction accuracy and retains high coverage. Furtheremore, we developped a web crawler system with high performence, dynamic and flexible (errors). We proved on the basis of expirements the advantages of our approach compared to state of art crawlers
Bibliographie : Bibliographie p. 153-165