Extraction de connaissances symboliques et relationnelles appliquée aux tracés manuscrits structurés en-ligne

Notre travail porte sur l extraction de connaissances sur des langages graphiques dont les symboles sont à priori inconnus. Nous formons l hypothèse que l observation d une grande quantité de documents doit permettre de découvrir les symboles composant l alphabet du langage considéré. La difficulté...

Description complète

Enregistré dans:
Détails bibliographiques
Auteur principal : Li Jinpeng (Auteur)
Collectivités auteurs : Université de Nantes 1962-2021 (Organisme de soutenance), École polytechnique de l'Université de Nantes (Autre partenaire associé à la thèse), Institut de recherche en communications et cybernétique Nantes 1958-2017 (Organisme de soutenance), École doctorale Sciences et technologies de l'information et mathématiques Nantes (Organisme de soutenance)
Autres auteurs : Viard-Gaudin Christian (Directeur de thèse), Mouchère Harold (Directeur de thèse)
Format : Thèse ou mémoire
Langue : français
anglais
Titre complet : Extraction de connaissances symboliques et relationnelles appliquée aux tracés manuscrits structurés en-ligne / Jinpeng Li; sous la direction de Christian Viard-Gaudin ; co-encadrant Harold Mouchère
Publié : [S.l.] : [s.n.] , 2012
Description matérielle : 1 vol. (190 p.)
Note de thèse : Thèse de doctorat : Informatique, Automatique et informatique appliquée : Nantes : 2012
Disponibilité : Publication autorisée par le jury
Sujets :
Documents associés : Reproduit comme: Extraction de connaissances symboliques et relationnelles appliquée aux tracés manuscrits structurés en-ligne
Description
Résumé : Notre travail porte sur l extraction de connaissances sur des langages graphiques dont les symboles sont à priori inconnus. Nous formons l hypothèse que l observation d une grande quantité de documents doit permettre de découvrir les symboles composant l alphabet du langage considéré. La difficulté du problème réside dans la nature bidimensionnelle et manuscrite des langages graphiques étudiés. Nous nous plaçons dans le cadre de tracés en-ligne produit par des interfaces de saisie de type écrans tactiles, tableaux interactifs ou stylos électroniques. Le signal disponible est alors une trajectoire échantillonnée produisant une séquence de traits, eux-mêmes composés d une séquence de points. Un symbole, élément de base de l alphabet du langage, est donc composé d un ensemble de traits possédant des propriétés structurelles et relationnelles spécifiques. L extraction des symboles est réalisée par la découverte de sous-graphes répétitifs dans un graphe global modélisant les traits (noeuds) et leur relations spatiales (arcs) de l ensemble des documents. Le principe de description de longueur minimum (MDL : Minimum Description Length) est mis en oeuvre pour choisir les meilleurs représentants du lexique des symboles. Ces travaux ont été validés sur deux bases expérimentales. La première est une base d expressions mathématiques simples, la seconde représente des graphiques de type organigramme. Sur ces bases, nous pouvons évaluer la qualité des symboles extraits et comparer à la vérité terrain. Enfin, nous nous sommes intéressés à la réduction de la tâche d annotation d une base en considérant à la fois les problématiques de segmentation et d étiquetage des différents traits.
Our work concerns knowledge extraction from graphical languages whose symbols are a priori unknown. We are assuming that the observation of a large quantity of documents should allow to discover the symbols of the considered language. The difficulty of the problem is the two-dimensional and handwritten nature of the graphical languages that we are studying. We are considering online handwriting produced by interfaces like touch-screens, interactive whiteboards or electronic pens. The signal is then available as a sampled trajectory of the pen or finger tip, producing a sequence of strokes, themselves composed of a sequence of points. A symbol, the basic element of the alphabet of the language, is composed of a set of strokes with specific structural and relational properties. The extraction of symbols is performed by unveiling the presence of repetitive subgraphs in a global graph modeling the strokes (nodes) and their spatial relationships (arcs) of the entire document set. The principle of minimum description length (MDL) is used to select the best representatives of the symbol set. This work was validated on two experimental datasets. The first one is a dataset of simple mathematical expressions, the second is composed of graphical flowcharts. On these datasets, we can assess the quality of the extracted symbols and compared them to the ground truth. Finally, we were interested in reducing the annotation workload of a database by considering both the problems of segmentation and labeling of the different strokes.
Variantes de titre : Symbol and spatial relation knowledge extraction applied to on-line handwritten scripts
Notes : Thèse rédigée en anglais avec un résumé étendu de 32 feuillets
Bibliographie : Bibliogr. p.185-190