Visualisation et séparateurs à vaste marge en fouille de données

Nous présentons différentes approches coopératives combinant des méthodes de visualisation et des séparateurs à vaste marge (SVM) pour l'extraction de connaissances dans les données (ECD). La plupart des méthodes existantes à l'heure actuelle en fouille de données fonctionnent de manière a...

Description complète

Enregistré dans:
Détails bibliographiques
Auteur principal : Do Thanh-Nghi (Auteur)
Collectivités auteurs : Université de Nantes 1962-2021 (Organisme de soutenance), École doctorale sciences et technologies de l'information et des matériaux Nantes (Ecole doctorale associée à la thèse)
Autres auteurs : Briand Henri (Directeur de thèse), Poulet François (Directeur de thèse)
Format : Thèse ou mémoire
Langue : français
Titre complet : Visualisation et séparateurs à vaste marge en fouille de données / Thanh-Nghi Do; sous la dir. de Henri Briand
Publié : [S.l.] : [s.n.] , 2004
Description matérielle : 166 p.
Note de thèse : Thèse doctorat : Informatique : Nantes : 2004
Disponibilité : Publication autorisée par le jury
Sujets :
Description
Résumé : Nous présentons différentes approches coopératives combinant des méthodes de visualisation et des séparateurs à vaste marge (SVM) pour l'extraction de connaissances dans les données (ECD). La plupart des méthodes existantes à l'heure actuelle en fouille de données fonctionnent de manière automatique, l'utilisateur n'est que peu impliqué dans le processus. Par ailleurs, ces méthodes doivent pouvoir traiter des quantités de plus en plus importantes de données. Nous visons d'une part à augmenter le rôle de l'utilisateur dans le processus de fouille (par le biais de la visualisation) et d'autre part à améliorer les performances et les capacités des algorithmes de fouille pour leur permettre de traiter de grands ensembles de données. Nous présentons : - une classe d'algorithmes de SVM parallèles et distribués pour le traitement de grandes quantités de données, - des méthodes graphiques interactives pour expliquer les résultats des algorithmes de classification automatique, - des méthodes coopératives permettant d'impliquer plus significativement l'utilisateur dans la construction du modèle. Nous avons développé des algorithmes incrémentaux, parallèles et distribués (en lignes ou en colonnes) de proximal SVM, Least-Square SVM et SVM généralisé. Ces algorithmes nous permettent de traiter aisément des fichiers de très grandes tailles sur des machines standards : un milliard d'individus en dimension 10 sont classés en 7 minutes (sur 10 machines). Dans la plupart des cas, les algorithmes de SVM donnent en sortie les vecteurs support (qui forment la frontière entre les éléments des deux classes). Cette information est peu compréhensible et fait que les SVM sont utilisés comme des boîtes noires. Nous présentons des méthodes graphiques interactives pour interpréter les résultats de SVM en classification, régression et détection d'individus atypiques et permettre par exemple de déterminer les dimensions intéressantes dans le modèle obtenu. Nous en avons ensuite dérivé une méthode graphique interactive pour améliorer les résultats des algorithmes de SVM dans le cas de la classification multi-classes ou d'une classe minoritaire et une méthode graphique d'aide au paramétrage des SVM. Enfin nous présentons une méthode de fouille visuelle de données permettant la construction interactive de SVM. Les performances des algorithmes développés sont ensuite évaluées sur différents ensembles de données : les résultats sont équivalents aux algorithmes usuels en ce qui concerne les taux de précision. Nos principaux apports sont d'une part l'amélioration de la confiance et de la compréhensibilité du modèle et d'autre part la capacité à traiter de très grandes quantités de données sur du matériel standard.
We present the different cooperative approaches using visualization methods and support vector machine algorithms (SVM) for knowledge discovery in databases (KDD). Most of existing data mining approaches construct the model in an automatic way, the user is not involved in the mining process. Furthermore, these approaches must be able to deal with the challenge of large datasets. Our work aims at increasing the human role in the KDD process (by the way of visualization methods) and improve the performances (concerning the execution time and the memory requirement) of the methods for mining large datasets. W e present:- parallel and distributed SVM algorithms for mining massive datasets, - interactive graphical methods to explain SVM results, - cooperative approaches to involve more significatively the user in the model construction.
Bibliographie : Bibliogr. p. 155-166