Affichage MARC: Extraction d'informations à partir du Web

Extraction d'informations à partir du Web

Avec l'essor du Web, de nombreuses sources de données en ligne, telles que des annuaires en ligne, des sites immobiliers, des sites de commerce électronique, des moteurs de recherches, etc. sont apparues. Cependant ces sources de données ont été conçues pour être parcourues et visualisées par d...

Description complète

Enregistré dans:

Détails bibliographiques
Auteur principal :	Habegger Benjamin (Auteur)
Collectivités auteurs :	Université de Nantes 1962-2021 (Organisme de soutenance), Université de Nantes Faculté des sciences et des techniques (Autre partenaire associé à la thèse), École doctorale sciences et technologies de l'information et des matériaux Nantes (Ecole doctorale associée à la thèse)
Autres auteurs :	Quafafou Mohamed (Directeur de thèse)
Format :	Thèse ou mémoire
Langue :	français
Titre complet :	Extraction d'informations à partir du Web / Benjamin Habegger; sous la dir. de Mohamed Quafafou
Publié :	[S.l.] : [s.n.] , 2004
Description matérielle :	XII-208 p.
Note de thèse :	Thèse doctorat : Informatique : Nantes : 2004
Disponibilité :	Publication autorisée par le jury
Sujets :	Exploration de données > Thèses et écrits académiques Web sémantique > Thèses et écrits académiques Informatique documentaire > Thèses et écrits académiques


LEADER	05813cam a2200397 4500
001	PPN086867881
003	http://www.sudoc.fr/086867881
005	20240531154500.0
029			\|a FR \|b 2004NANT2100
035			\|a (OCoLC)491839020
100			\|a 20050510d2004 k y0frey0103 ba
101	0		\|a fre \|d fre \|d eng
102			\|a FR
105			\|a a m 000yy
106			\|a r
200	1		\|a Extraction d'informations à partir du Web \|b Texte imprimé \|f Benjamin Habegger \|g sous la dir. de Mohamed Quafafou
210			\|a [S.l.] \|c [s.n.] \|d 2004
215			\|a XII-208 p. \|c ill. \|d 30 cm
310			\|a Publication autorisée par le jury
320			\|a Bibliogr. p. 163-169
328			\|b Thèse doctorat \|c Informatique \|e Nantes \|d 2004
330			\|a Avec l'essor du Web, de nombreuses sources de données en ligne, telles que des annuaires en ligne, des sites immobiliers, des sites de commerce électronique, des moteurs de recherches, etc. sont apparues. Cependant ces sources de données ont été conçues pour être parcourues et visualisées par des utilisateurs humains utilisant un navigateur. Bien que riche en contenu, les formats que prennent ces sources sont des formats de présentation et il est alors difficile pour une machine d'utiliser les informations directement. Pourtant, donner à des programmes informatiques un accès à de telles sources ouvre la porte à de nombreuses applications telles que la création d'agents intelligents accédant aux données du Web, à l'intégration de données du Web dans des systèmes de médiation de données, etc. Deux problèmes majeurs se posent pour permettre cet accès. Premièrement, il est nécessaire d'extraire les informations que contiennent les pages résultats d'une sources et de les mettre dans un format compréhensible par la machine. Deuxièmement, la machine doit savoir comment accéder à la source. En effet, on doit savoir où poster une requête, comment parcourir l'ensemble de pages résultats, etc. Pour résoudre le premier problème nous proposons d'utiliser une méthode dans laquelle l'utilisateur décrit les informations qu'il souhaite extraire en donnant quelques instances exemples de celles-ci. Les contextes d'occurrence de ces exemples sont alors recherchés dans les pages résultats de la source et généralisés afin d'extraire de nouvelles instances. Par rapport aux méthodes existantes dans la littérature celle que nous proposons permet d'extraire précisément les données souhaitées sans toutefois avoir à étiqueter manuellement des pages exemples entières. D'autre part, nous proposons une solution au second problème : permettre à la machine d'accéder à une source. Par l'étude de plusieurs sources, nous avons mis en avant un ensemble d'opérateurs récurrents dont le paramétrage et la combinaison permet l'accès aux sources. Nous proposons le langage WETDL afin de décrire les opérateurs et leurs combinaisons. Nous proposons aussi plusieurs algorithmes permettant "d'exécuter" ces descriptions et ainsi réaliser une tâche d'extraction.
330			\|a With the growth of the Web, many on line sources such as on-line address books,es in line, real estate sites, e-commerces sites, etc. have appeared. However these data sources are destined to be accessed and viewed by human users. While being content rich, these pages are in presentational format thus making it difficult for an automated machine access. However, giving such machine access opens the door to many applications such as allowing intelligent agents to make us of Web sources, allowing to include Web sources in data mediations systems, etc. In order to give such an access two major problems need to be resolved. First, it is necessary to be able to extract the information contained in the result documents and put this information into the machine understandable format. Second, the machine must know how to access the source, i.e. how to build queries the source will understand, where to post the queries, how to navigate through the result pages, etc. To resolve the first problem we propose a method in which the user specifies the information he wishes to extract by giving example instances of this information. The contexts of the occurrences of these instances are searched for in the result pages and generalized allowing to extract unseen instances. Compared the methods of the literature this method allows to precisely extract the desired information without having to fully manually label example pages. We also propose a solution to the second problem: allowing the machine to access a source. By the study of multiple on-line sources we put front a set of recurrent operators whose parameter settings and combination allows to access a source. We propose a language WETDL in order to describe the operators and their combination. We also give different algorithms allowing "to execute" such a description thus allowing to realize an extraction task.
606			\|3 PPN035198222 \|a Exploration de données \|3 PPN027253139 \|x Thèses et écrits académiques \|2 rameau
606			\|3 PPN076053547 \|a Web sémantique \|3 PPN027253139 \|x Thèses et écrits académiques \|2 rameau
606			\|3 PPN027234940 \|a Informatique documentaire \|3 PPN027253139 \|x Thèses et écrits académiques \|2 rameau
686			\|a 004 \|2 TEF
700		1	\|3 PPN086867571 \|a Habegger \|b Benjamin \|f 1977-... \|4 070
702		1	\|3 PPN069208190 \|a Quafafou \|b Mohamed \|f 1959 \|4 727
712	0	2	\|3 PPN026403447 \|a Université de Nantes \|c 1962-2021 \|4 295
712	0	2	\|3 PPN033124884 \|a Université de Nantes \|b Faculté des sciences et des techniques \|4 985
712	0	2	\|3 PPN068720513 \|a École doctorale sciences et technologies de l'information et des matériaux \|c Nantes \|4 996
801		3	\|a FR \|b Abes \|c 20171204 \|g AFNOR
979			\|a SCI
930			\|5 441092104:230488471 \|b 441092104 \|j u
998			\|a 408356

Extraction d'informations à partir du Web

Documents similaires