Stratégies de fusion pour des signaux écrits et sonores : application à la reconnaissance d expressions mathématiques

L'être humain dans sa quête de mise en œuvre d'un dialogue le plus naturel possible avec sa machine s'inspire continuellement de la machine la plus perfectionnée connue à ce jour : l'être humain lui-même. Une caractéristique forte du dialogue entre humains est le recours à la mul...

Description complète

Enregistré dans:
Détails bibliographiques
Auteurs principaux : Medjkoune Sofiane (Auteur), Viard-Gaudin Christian (Directeur de thèse, Membre du jury), Mouchère Harold (Directeur de thèse, Membre du jury), Petitrenaud Simon (Directeur de thèse, Membre du jury), Bloch Isabelle (Président du jury de soutenance, Membre du jury), Artières Thierry (Rapporteur de la thèse, Membre du jury), Coüasnon Bertrand (Rapporteur de la thèse, Membre du jury)
Collectivités auteurs : Université de Nantes 1962-2021 (Organisme de soutenance), Université de Nantes Faculté des sciences et des techniques (Organisme de soutenance), École doctorale Sciences et technologies de l'information et mathématiques Nantes (Ecole doctorale associée à la thèse), Institut de recherche en communications et cybernétique Nantes 1958-2017 (Laboratoire associé à la thèse)
Format : Thèse ou mémoire
Langue : français
anglais
Titre complet : Stratégies de fusion pour des signaux écrits et sonores : application à la reconnaissance d expressions mathématiques / Sofiane Medjkoune; sous la direction de Christian Viard-Gaudin ; encadrants Harold Mouchère et Simon Petitrenaud
Publié : [S.l.] : [s.n.] , 2013
Accès en ligne : Accès Nantes Université
Note de thèse : Thèse de doctorat : Informatique et applications : Nantes : 2013
Sujets :
Documents associés : Reproduction de: Stratégies de fusion pour des signaux écrits et sonores
Description
Résumé : L'être humain dans sa quête de mise en œuvre d'un dialogue le plus naturel possible avec sa machine s'inspire continuellement de la machine la plus perfectionnée connue à ce jour : l'être humain lui-même. Une caractéristique forte du dialogue entre humains est le recours à la multi-modalité. Le travail rapporté dans ce manuscrit porte sur l'étude, la conception et la validation d'un système de reconnaissance des expressions mathématiques, classe particulière de structures bidimensionnelles. Ce système est développé dans un cadre bimodal où l'on considère de façon complémentaire l'écriture manuscrite et la parole. La complémentarité qui existe entre ces deux modalités a été vérifiée et exploitée à profit dans notre système, d'abord dans un cadre simplifié qui est celui de la reconnaissance des symboles mathématiques isolés, puis dans un cadre plus général et plus réaliste, celui des expressions mathématiques complètes. La mise en place de ce système bimodal et sa validation requérant la disponibilité de données bimodales, nous avons collecté, complètement annoté et mis à disposition une base, nommée HAMEX, contenant 4350 expressions bimodales couvrant différents domaines. Nous montrons comment utiliser la transcription automatique de la dictée d'une expression pour guider le système de reconnaissance du signal manuscrit pour obtenir des résultats supérieurs au système monomodal. Les performances de ce système s'avèrent être meilleures que celles d'un système mono-modal basé uniquement sur le signal manuscrit seul.
Significant efforts are being done to make as natural as possible the way that human are interacting with their machines. Regarding this quest, a lot of research is being inspired by the most sophisticated machine ever known : human being and more precisely his use of the multi-modality aspect of the information to interact with his peers. The work reported here concerns the study, the conception and the validation of bidimensional structure recognition systems. The application considered here is the mathematical expression language which is one of the most interesting 2D languages. The system we proposed is original since it uses simultaneously two modalities to achieve its task. Indeed, both speech and handwriting streams are used by our system to perform the recognition in a bimodal fashion. This procedure allows dealing with the ambiguities arising when mono-modal processing is used. This system exploits the existing complementarity between the modalities in concern and exhibits an improvement of the performances with respect to the case of a mono-modal processing using only handwriting modality. To set-up, train and validate our system we built HAMEX, a bimodal database of mathematical expressions. This latter, is formed by 4350 mathematical expressions, each available in handwritten and audio forms and is fully annotated.
Variantes de titre : Fusion strategies for handwritten and audio strams : application for mathematical expressions recognition
Notes : Ecole(s) Doctorale(s) : École doctorale sciences et technologies de l'information et de mathématiques (Nantes)
Partenaire(s) de recherche : Institut de recherche en communications et cybernétique (IRCCyN) (Nantes) (Laboratoire)
Autre(s) contribution(s) : Isabelle Bloch (Président du jury) ; Bertrand Couasnon, Thierry Artières, Harold Mouchère, Simon Petit-Renaud (Membre(s) du jury) ; Bertrand Couasnon, Thierry Artières (Rapporteur(s))
Bibliographie : Références bibliographiques