Un système de visualisation pour l'extraction, l'évaluation, et l'exploration interactives des règles d'association

De nombreuses méthodes d'Extraction de Connaissances dans les Données (ECD) produisent des résultats sous forme de règles. Les règles ont l'avantage de représenter les connaissances de manière explicite, ce qui en fait des modèles tout à fait intelligibles pour un utilisateur. Elles sont d...

Description complète

Enregistré dans:
Détails bibliographiques
Auteur principal : Blanchard Julien (Auteur)
Collectivités auteurs : Université de Nantes 1962-2021 (Organisme de soutenance), Centrale Nantes 1991-.... (Organisme de soutenance), École nationale supérieure des mines Nantes 1990-2016 (Organisme de soutenance), École doctorale sciences et technologies de l'information et des matériaux Nantes (Organisme de soutenance)
Autres auteurs : Briand Henri (Directeur de thèse)
Format : Thèse ou mémoire
Langue : français
Titre complet : Un système de visualisation pour l'extraction, l'évaluation, et l'exploration interactives des règles d'association / Julien Blanchard; sous la direction de Henri Briand
Publié : [S.l.] : [s.n.] , 2005
Description matérielle : 1 vol. (184 p.)
Note de thèse : Thèse doctorat : Informatique : Nantes : 2005
Disponibilité : Publication autorisée par le jury
Sujets :
Description
Résumé : De nombreuses méthodes d'Extraction de Connaissances dans les Données (ECD) produisent des résultats sous forme de règles. Les règles ont l'avantage de représenter les connaissances de manière explicite, ce qui en fait des modèles tout à fait intelligibles pour un utilisateur. Elles sont d'ailleurs au fondement de la plupart des théories de représentation de la connaissance en sciences cognitives. En fouille de données, la principale technique à base de règles est l'extraction de règles d'association, qui a donné lieu à de nombreux travaux de recherche. La limite majeure des algorithmes d'extraction de règles d'association est qu'ils produisent communément de grandes quantités de règles, dont beaucoup se révèlent même sans aucun intérêt pour l'utilisateur. Ceci s'explique par la nature non supervisée de ces algorithmes : ne considérant aucune variable endogène, ils envisagent dans les règles toutes les combinaisons possibles de variables. Dans la pratique, l'utilisateur ne peut pas exploiter les résultats tels quels directement à la sortie des algorithmes. Un post-traitement consistant en une seconde opération de fouille se révèle indispensable pour valider les volumes de règles et découvrir des connaissances utiles. Cependant, alors que la fouille de données est effectuée automatiquement par des algorithmes combinatoires, la fouille de règles est une tâche laborieuse à la charge de l'utilisateur. La thèse développe deux approches pour assister l'utilisateur dans le post-traitement des règles d'association : la mesure de la qualité des règles par des indices numériques, la supervision du post-traitement par une visualisation interactive. Pour ce qui concerne la première approche, nous formalisons la notion d'indice de qualité de règles et réalisons une classification inédite des nombreux indices de la littérature, permettant d'aider l'utilisateur à choisir les indices pertinents pour son besoin. Nous présentons également trois nouveaux indices aux propriétés originales : l'indice probabiliste d'écart à l'équilibre, l'intensité d'implication entropique, et le taux informationnel. Pour ce qui concerne la seconde approche, nous proposons une méthodologie de visualisation pour l'exploration interactive des règles. Elle est conçue pour faciliter la tâche de l'utilisateur confronté à de grands ensembles de règles en prenant en compte ses capacités de traitement de l'information. Dans cette méthodologie, l'utilisateur dirige la découverte de connaissances par des opérateurs de navigation adaptés en visualisant des ensembles successifs de règles décrits par des indices de qualité. Les deux approches sont intégrées au sein de l'outil de visualisation ARVis (Association Rule Visualization) pour l'exploration interactive des règles d'association. ARVis implémente notre méthodologie au moyen d'une représentation 3D, inédite en visualisation de règles, mettant en valeur les indices de qualité. De plus, ARVis repose sur un algorithme spécifique d'extraction sous contraintes permettant de générer les règles interactivement au fur et à mesure de la navigation de l'utilisateur. Ainsi, en explorant les règles, l'utilisateur dirige à la fois l'extraction et le post-traitement des ...
Numerous methods of Knowledge Discovery in Databases (KDD) produce results in the form of rules. Rules have the advantage of representing knowledge explicitly, which makes them absolutely intelligible models for a user. Besides, they are a major element of most theories of knowledge representation in cognitive sciences. In data mining, the main rule-based paradigm is association rules which have received significant research attention. The main limit of association rule mining algorithms is that they commonly generate large amounts of rules, many of which do not even have any interest for the user. This is due to the unsupervised nature of these algorithms: as they consider no endogenous variable, they search for all the possible combinations of variables in the rules. In practice, the user cannot exploit the results directly at the output of the algorithms. A post-process consisting in a second analysis is indispensable to validate the sets of rules and discover useful knowledge. However, whereas data analysis is automatically computed by combinatorial algorithms, rule analysis is a tedious task manually done by the user. The thesis develops two approaches for assisting the user in association rule post-processing: assessing rule interestingness with numerical indexes, supervising the post-process with an interactive visualization....
Bibliographie : Bibliographie p. 169-184)