Grammatical inference of probalistic context-free grammars

L inférence grammaticale consiste à apprendre, à partir de données provenant d un langage, une grammaire susceptible d expliquer ou de générer le langage en question. Ce travail, concerne les grammaires incontextuelles (ou context-free) probabilistes, plus puissantes que les grammaires régulières, o...

Description complète

Détails bibliographiques
Auteurs principaux : Scicluna James (Auteur), La Higuera Colin de (Directeur de thèse, Membre du jury), Janodet Jean-Christophe (Président du jury de soutenance, Membre du jury), Clark Alexander (Rapporteur de la thèse, Membre du jury), Habrard Amaury (Rapporteur de la thèse, Membre du jury)
Collectivités auteurs : Université de Nantes 1962-2021 (Organisme de soutenance), Université de Nantes Faculté des sciences et des techniques (Autre partenaire associé à la thèse), École doctorale Sciences et technologies de l'information et mathématiques Nantes (Organisme de soutenance), Laboratoire d Informatique de Nantes Atlantique (UMR 6241) Nantes (Laboratoire associé à la thèse)
Format : Thèse ou mémoire
Langue : anglais
Titre complet : Grammatical inference of probalistic context-free grammars / James Scicluna; sous la direction de Colin de la Higuera
Publié : [S.l.] : [s.n.] , 2014
Description matérielle : 1 vol. (123 p.)
Condition d'utilisation et de reproduction : Publication autorisée par le jury
Note de thèse : Thèse de doctorat : Informatique et applications : Nantes : 2014
Sujets :
Documents associés : Reproduit comme: Grammatical inference of probalistic context-free grammars
Particularités de l'exemplaire : BU Sciences, Ex. 1 :
Titre temporairement indisponible à la communication

LEADER 05923cam a2200589 4500
001 PPN190220597
003 http://www.sudoc.fr/190220597
005 20240829055200.0
029 |a FR  |b 2014NANT2071 
035 |a (OCoLC)1247894105 
100 |a 20151215d2014 k y|frey0103 ba 
101 0 |a eng  |d fre  |d eng  |2 639-2 
102 |a FR 
105 |a ||||m 00||| 
106 |a r 
181 1 |6 z01  |c txt  |2 rdacontent 
181 1 |6 z01  |a i#  |b xxxe## 
182 1 |6 z01  |c n  |2 rdamedia 
182 1 |6 z01  |a n 
200 1 |a Grammatical inference of probalistic context-free grammars  |f James Scicluna  |g sous la direction de Colin de la Higuera 
210 |a [S.l.]  |c [s.n.]  |d 2014 
215 |a 1 vol. (123 p.)  |c ill.  |d 30 cm 
300 |a Thèse rédigée en anglais 
314 |a Ecole(s) Doctorale(s) : École doctorale Sciences et technologies de l'information et mathématiques (STIM) (Nantes) 
314 |a Autre(s) contribution(s) : Jean-Christophe Janodet (Président du jury) ; François Coste (Membre du jury) ; Alexander Clark, Amaury Habrard (Rapporteurs) 
316 |5 441092104:544341309  |a Titre temporairement indisponible à la communication 
320 |a Bibliogr. p.107-117 
328 |b Thèse de doctorat  |c Informatique et applications  |e Nantes  |d 2014 
330 |a L inférence grammaticale consiste à apprendre, à partir de données provenant d un langage, une grammaire susceptible d expliquer ou de générer le langage en question. Ce travail, concerne les grammaires incontextuelles (ou context-free) probabilistes, plus puissantes que les grammaires régulières, objet de la plupart des travaux en inférence grammaticale. L apprentissage est non supervisé : aucune information structurelle n est connue. Le travail comprend un état de l art concernant l inférence grammaticale, les grammaires probabilistes et les classes de grammaires permettant un apprentissage distributionnel. Puis nous étudions différents problèmes de décision concernant des questions de (calculs de) distances entre distributions et nous montrons qu en général il s agit de problèmes indécidables. Dans un second temps nous donnons une description mathématique de la classe de grammaires qui vont nous intéresser. Le coeur de la thèse concerne le développement de l algorithme COMINO, de l analyse de ses propriétés et de l étude empirique de ses capacités. L algorithme se déroule en trois phases : durant la première, une relation d équivalence sur les sous-mots est calculée. Durant la seconde, un solveur est utilisé pour sélectionner un nombre minimal de classes. Enfin, les classes deviennent les nonterminaux d une grammaire dont les poids des règles sont estimés grâce à l échantillon. Les résultats expérimentaux témoignent de la robustesse de l approche mais montrent également les limites de l approche sur des données réelles de langue naturelle. 
330 |a Probabilistic Context-Free Grammars (PCFGs) are formal statistical models which describe probability distributions on strings and on tree structures of the same strings. Grammatical Inference is a sub-field of machine learning where the task is to learn automata or grammars (such as PCFGs) from information about their languages. In this thesis, we are interested in Grammatical Inference of PCFGs from text. There are various applications for this problem, chief amongst which are Unsupervised Parsing and Language Modelling in Natural Language Processing and RNA secondary structure prediction in Bioinformatics. PCFG inference is however a difficult problem for a variety of reasons. In spite of its importance for various applications, only few positive results have up till now been obtained for this problem. Our main contribution in this thesis is a practical PCFG learning algorithm with some proven properties and based on a principled approach. We define a new subclass of PCFGs (very similar to the one defined in (Clark, 2010)) and use distributional learning and MDL-based techniques in order to learn this class of grammars. We obtain competitive results on experiments that evaluate unsupervised parsing and language modelling. A minor contribution in this thesis is a compendium of undecidability results for distances between PCFGs along with two positive results on PCFGs. Having such results can help in the process of finding learning algorithms for PCFGs. 
371 1 |a Publication autorisée par le jury 
456 | |0 249358921  |t Grammatical inference of probalistic context-free grammars  |f James Scicluna  |d 2014  |c Lille  |n Atelier national de reproduction des thèses  |p Microfiches  |s Lille-thèses 
541 | |a Inférence grammaticale de grammaires incontextuelles probabilistes  |z eng 
606 |3 PPN027940373  |a Apprentissage automatique  |2 rameau 
608 |3 PPN027253139  |a Thèses et écrits académiques  |2 rameau 
610 0 |a Inférence grammaticale 
610 0 |a Grammaires probabilistes 
686 |a 620  |2 TEF 
700 1 |3 PPN190169842  |a Scicluna  |b James  |f 1987-....  |4 070 
701 1 |3 PPN053503503  |a La Higuera  |b Colin de  |f 19..-....  |4 727  |4 555 
701 1 |3 PPN113433166  |a Janodet  |b Jean-Christophe  |f 1972-....  |c auteur en informatique  |4 956  |4 555 
701 1 |3 PPN133159906  |a Clark  |b Alexander  |f 19..-....  |4 958  |4 555 
701 1 |3 PPN084103655  |a Habrard  |b Amaury  |f 1978-....  |4 958  |4 555 
711 0 2 |3 PPN026403447  |a Université de Nantes  |c 1962-2021  |4 295 
711 0 2 |3 PPN033124884  |a Université de Nantes  |b Faculté des sciences et des techniques  |4 985 
711 0 2 |3 PPN134103211  |a École doctorale Sciences et technologies de l'information et mathématiques  |c Nantes  |4 295 
711 0 2 |3 PPN137062508  |a Laboratoire d Informatique de Nantes Atlantique (UMR 6241)  |c Nantes  |4 981  |4 981 
801 3 |a FR  |b Abes  |c 20240506  |g AFNOR 
979 |a SCI 
930 |5 441092104:544341309  |b 441092104  |j g 
991 |5 441092104:544341309  |a Exemplaire modifié automatiquement le 18-07-2024 18:49 
998 |a 714069