Extraction d'informations à partir du Web

Avec l'essor du Web, de nombreuses sources de données en ligne, telles que des annuaires en ligne, des sites immobiliers, des sites de commerce électronique, des moteurs de recherches, etc. sont apparues. Cependant ces sources de données ont été conçues pour être parcourues et visualisées par d...

Description complète

Enregistré dans:
Détails bibliographiques
Auteur principal : Habegger Benjamin (Auteur)
Collectivités auteurs : Université de Nantes 1962-2021 (Organisme de soutenance), Université de Nantes Faculté des sciences et des techniques (Autre partenaire associé à la thèse), École doctorale sciences et technologies de l'information et des matériaux Nantes (Ecole doctorale associée à la thèse)
Autres auteurs : Quafafou Mohamed (Directeur de thèse)
Format : Thèse ou mémoire
Langue : français
Titre complet : Extraction d'informations à partir du Web / Benjamin Habegger; sous la dir. de Mohamed Quafafou
Publié : [S.l.] : [s.n.] , 2004
Description matérielle : XII-208 p.
Note de thèse : Thèse doctorat : Informatique : Nantes : 2004
Disponibilité : Publication autorisée par le jury
Sujets :
LEADER 05813cam a2200397 4500
001 PPN086867881
003 http://www.sudoc.fr/086867881
005 20240531154500.0
029 |a FR  |b 2004NANT2100 
035 |a (OCoLC)491839020 
100 |a 20050510d2004 k y0frey0103 ba 
101 0 |a fre  |d fre  |d eng 
102 |a FR 
105 |a a m 000yy 
106 |a r 
200 1 |a Extraction d'informations à partir du Web  |b Texte imprimé  |f Benjamin Habegger  |g sous la dir. de Mohamed Quafafou 
210 |a [S.l.]  |c [s.n.]  |d 2004 
215 |a XII-208 p.  |c ill.  |d 30 cm 
310 |a Publication autorisée par le jury 
320 |a Bibliogr. p. 163-169 
328 |b Thèse doctorat  |c Informatique  |e Nantes  |d 2004 
330 |a Avec l'essor du Web, de nombreuses sources de données en ligne, telles que des annuaires en ligne, des sites immobiliers, des sites de commerce électronique, des moteurs de recherches, etc. sont apparues. Cependant ces sources de données ont été conçues pour être parcourues et visualisées par des utilisateurs humains utilisant un navigateur. Bien que riche en contenu, les formats que prennent ces sources sont des formats de présentation et il est alors difficile pour une machine d'utiliser les informations directement. Pourtant, donner à des programmes informatiques un accès à de telles sources ouvre la porte à de nombreuses applications telles que la création d'agents intelligents accédant aux données du Web, à l'intégration de données du Web dans des systèmes de médiation de données, etc. Deux problèmes majeurs se posent pour permettre cet accès. Premièrement, il est nécessaire d'extraire les informations que contiennent les pages résultats d'une sources et de les mettre dans un format compréhensible par la machine. Deuxièmement, la machine doit savoir comment accéder à la source. En effet, on doit savoir où poster une requête, comment parcourir l'ensemble de pages résultats, etc. Pour résoudre le premier problème nous proposons d'utiliser une méthode dans laquelle l'utilisateur décrit les informations qu'il souhaite extraire en donnant quelques instances exemples de celles-ci. Les contextes d'occurrence de ces exemples sont alors recherchés dans les pages résultats de la source et généralisés afin d'extraire de nouvelles instances. Par rapport aux méthodes existantes dans la littérature celle que nous proposons permet d'extraire précisément les données souhaitées sans toutefois avoir à étiqueter manuellement des pages exemples entières. D'autre part, nous proposons une solution au second problème : permettre à la machine d'accéder à une source. Par l'étude de plusieurs sources, nous avons mis en avant un ensemble d'opérateurs récurrents dont le paramétrage et la combinaison permet l'accès aux sources. Nous proposons le langage WETDL afin de décrire les opérateurs et leurs combinaisons. Nous proposons aussi plusieurs algorithmes permettant "d'exécuter" ces descriptions et ainsi réaliser une tâche d'extraction. 
330 |a With the growth of the Web, many on line sources such as on-line address books,es in line, real estate sites, e-commerces sites, etc. have appeared. However these data sources are destined to be accessed and viewed by human users. While being content rich, these pages are in presentational format thus making it difficult for an automated machine access. However, giving such machine access opens the door to many applications such as allowing intelligent agents to make us of Web sources, allowing to include Web sources in data mediations systems, etc. In order to give such an access two major problems need to be resolved. First, it is necessary to be able to extract the information contained in the result documents and put this information into the machine understandable format. Second, the machine must know how to access the source, i.e. how to build queries the source will understand, where to post the queries, how to navigate through the result pages, etc. To resolve the first problem we propose a method in which the user specifies the information he wishes to extract by giving example instances of this information. The contexts of the occurrences of these instances are searched for in the result pages and generalized allowing to extract unseen instances. Compared the methods of the literature this method allows to precisely extract the desired information without having to fully manually label example pages. We also propose a solution to the second problem: allowing the machine to access a source. By the study of multiple on-line sources we put front a set of recurrent operators whose parameter settings and combination allows to access a source. We propose a language WETDL in order to describe the operators and their combination. We also give different algorithms allowing "to execute" such a description thus allowing to realize an extraction task. 
606 |3 PPN035198222  |a Exploration de données  |3 PPN027253139  |x Thèses et écrits académiques  |2 rameau 
606 |3 PPN076053547  |a Web sémantique  |3 PPN027253139  |x Thèses et écrits académiques  |2 rameau 
606 |3 PPN027234940  |a Informatique documentaire  |3 PPN027253139  |x Thèses et écrits académiques  |2 rameau 
686 |a 004  |2 TEF 
700 1 |3 PPN086867571  |a Habegger  |b Benjamin  |f 1977-...  |4 070 
702 1 |3 PPN069208190  |a Quafafou  |b Mohamed  |f 1959  |4 727 
712 0 2 |3 PPN026403447  |a Université de Nantes  |c 1962-2021  |4 295 
712 0 2 |3 PPN033124884  |a Université de Nantes  |b Faculté des sciences et des techniques  |4 985 
712 0 2 |3 PPN068720513  |a École doctorale sciences et technologies de l'information et des matériaux  |c Nantes  |4 996 
801 3 |a FR  |b Abes  |c 20171204  |g AFNOR 
979 |a SCI 
930 |5 441092104:230488471  |b 441092104  |j u 
998 |a 408356