admin 管理员组

文章数量: 1086019


2024年3月10日发(作者:miscategorized)

维普资讯

第26卷 

2006年6月 

文章编号:1001—9081(2006)06Z一0089—02 

计算机应用 

Computer Applications 

Vo1.26 

June 2006 

基于Web信息组织模型的元数据检索技术 

高玉珠,刘瑞 

(北京航空航天大学计算机学院,北京100083) 

(gaoyz@nlsde.buaa.edu.cn) 

摘要:针对目前互联网搜索引擎主要使用全文检索技术,无法从Web页面中提取元数据信息 

情况,设计了一个基于信息组织模型的Web元数据信息提取和检索系统。使用基于正则表达式的元 

数据信息提取模型,信息提取和索引程序不断从数量巨大的Web页面中提取元数据信息,对本地元 

数据库进行不断地更新。抽象了多种Web信息组织模型,设计了相应的信息检索模型,并且这些模 

型可以大范围地应用于提取Web站点的元数据,所采用的方法充分利用了Web页面的数据结构,避 

免了采用复杂的语法、语义分析,为面向多个领域的元数据信息检索做出了一定的研究和探索。 

关键词:元数据;搜索引擎;检索模型;组织模型 

中图分类号:TP311.13 文献标识码:A 

合E构成,并且每条边e∈E连接一个有序顶点对。图G= 

( ,E)。 

0 引言 

搜索引擎以一定的策略在互联网中搜集、发现信息,对信 

息进行理解、提取、组织和处理,并为用户提供检索服务,起到 

信息导航的目的。目前的网络搜索技术只是停留在互联网的 

表面,搜索的仅仅是静态网页,而有很多动态的、结构化的深 

层信息是隐藏在数据库里的,普通的搜索引擎对这些信息无 

法搜索、索引和分析。目前大部分搜索引擎都是基于关键字 

查找和全文的检索技术,虽然搜索到的结果较多,但很多都是 

无用的信息,用户很难从中挑选他们所需要的资源。由于目 

前的搜索技术无法直接深入到数据库,因此面临着三个难题: 

1)如何从数据库得到请求响应,获取数据;2)如何将获取的 

数据进行组织;3)如何整合这些信息并呈现出来。 

CRYSTAL…和WHISK 需要语义分析,实现过程比较复杂。 

目前多数Web站点的Web页面都是使用了这种信息组 

织方式,站点上所有的页面都通过链接相互指向,构成一个有 

向图。如图1所示,每个结点表示一个页面,箭头表示页面之 

间的链接。 

InfoExtractorL] 为特定网站设计,可扩性较差。WrapperL4 的方 

法适用于具有较好结构的页面情况,但对于没有标出字体大 

小和缩格情况的内容无法进行抽取,因此在设计中除了考虑 

网页的风格之外,还考虑了相互关联的属性模式,以便从Web 

文档中抽取有用信息。 

文中归纳了多种Web信息组织模型,针对各种信息组织 

方式的特征,提出了相应的Web信息检索模型,使用基于正 

索系统,完成了Web信息抽取工作。 

12 

图1 Web有向链接 

1.2基于序列的信息组织模型 

设基数集合C={1,2,…,n},链接集合U={ur2,,ur2 , 

ur2 },映射g:c— 是双射;结果数据信息R是一个集合 

{rt,r2,…,rm},映射h:U—R是双射。所以检索函数 

基于这种方式组织的Web数据信息,可以通过确定其基 

数集合即可得到其链接集合,进而通过链接访问网页得到所 

 

则表达式模板的方法来描述检索模型,实现了Web元数据检 

f=gh=C—R是双射。

1 Web信息组织模型 

互联网Web信息组织模型是指发布在Web站点上的Web 

页面及其数据的组织方式。通过抽象Web信息组织方式,归 

纳出相应的信息提取模型,针对模型设计元数据提取策略。 

本文归纳了三种主要的Web信息组织模型:(1)基于有 

向图的链接组织模型;(2)基于序列的信息组织模型;(3)基 

于参数的动态组织模型。 

1.1基于有向图的链接组织模型 

有向图(网站)由一个顶点(页面)集合 和边(链接)集 

收稿日期:2005—10—18;修订日期:2005—12-06 

有Web数据信息。 

对于动态网页,可以序列化ur2参数的方式将数据发布到 

网站中,{u I。<i<b}。 

1.3基于参数的动态组织模型 

用户在Web页面中输入参数提交表单进行查询,查询的 

结果依据用户输入的参数而定。参数P是一个元组(po,P。, 

P ),表示有n个参数域;结果数据信息R是一个集合lr1, 

r2,…,rm},表示所有的数据集合;检索函数f:P—R 。 

基金项目:国家科技部基金资助项目(2003DKA5G015) 

作者简介:高玉珠(1980一)。女,天津人,硕士研究生,主要研究方向:互联网检索、信息提取技术;刘瑞(1970一),男,陕西宝鸡人,讲师 

博士,主要研究方向:数据库原理与应用、数据仓库、数据挖掘. 

维普资讯

计算机应用 2006血 

2 Web信息检索模型 

针对不同的Web信息组织模型建立相应的信息检索模 

型,使用基于XML的模板进行描述。 

2.1 Web页面发现机制 

模板分析器:依据系统模板对象,解析模板语义,产生不 

同类型的爬虫程序。对于以上提及的每种Web信息组织方 

式,系统对应一类信息提取程序(爬虫程序),检索站点的元 

数据。 

元数据提取:根据提取模板,从Web页面中提取元数据。 

元数据更新、索引:将元数据更新到本地元数据库中,并 

且建立数据索引。 

本地元数据库:维护元数据信息索引的数据库。 

外部查询接口:为用户检索Web信息设计的数据查询接 

口,接口直接查询本地元数据库,将元数据返回给客户端。 

根据web信息组织方式不同,Web页面发现机制也不 

同。本文针对以上三种信息组织方式建立了相应的Web页 

面发现机制。 

(1)有向图链接模型 

链接模型假设元数据所在的Web页面地址存在一种规 

则,系统只检索符合这种规则的Web页面提取元数据。设集 

【 l 

合A是网站所有页面的集合,定义规则函数: 

, 、 

rTrue如果 符合链接规则r 

一一 LFalse如果 不符合链接规则r 

其中 为输人的链接,r为定义的规则。 

设 为需要检索的页面集合,则 ={ J ∈A A g( ,r)。 

通过网络爬虫程序遍历网站所有的链接取得集合A;对A中每 

个元素进行规则匹配,得到链接集合L。 

(2)序列模型 

序列模型包括基数集合、序列参数、基本链接。序列参数 

是一个字符串常量s,基本链接是一个字符串常量b;根据基 

数集合C={1,2,…,l't},通过链接构造函数h(c b)即可求 

得序列模型的链接集合 ={^(c,s,b)J c∈C}。 

(3)动态参数模型 

设有n个参数,标记为P ,…,P ,其定义域分别为P,,P:, 

P ,设函数P为链接构造函数e(p ,P:,…,P ),则L= 

{P(pl,P2,…,P )JPl∈Pl A P2∈P2 A…A P ∈P }是模 

型的链接集合。P(pl,P2,…,P )参数P1,P:,…,P 对应于Web 

页面中表单的域,定义域P ,P2,…,P 的确定,需要根据Web 

页面中表单域的可输入值范围确定。 

2.2元数据提取规则 

元数据的提取采用正则表达式的方法,从Web页面中匹 

配出元数据。一个正则表达式可以匹配出元数据的多个属性 

值。 

3 系统实现 

3.1系统概要 

本文按照以上提及的三种web信息组织模型,分别建立 

了相应的信息提取模型,构造了元数据提取的模板。在此基 

础上,系统通过面向对象动态插件的技术,支持对新模板的扩 

充。对于不同的Web信息组织方式,信息提取的方式必然不 

同。系统中,信息提取通过爬虫程序实现,系统定义了抽象的 

信息提取接口,通过实现爬虫接H即可支持不同类型的模板, 

从而实现对不同信息组织方式的网站进行信息检索。 

系统的模块结构图如图2所示。 

元数据提取模板:以XML格式定义了爬虫程序在指定网 

站提取结构化数据的方式以及元数据各数据域的提取规则。 

模板提取:提取和管理系统中各种元数据模板。系统将 

模板信息以XML的方式存储,对于不同的Web站点都有相 

应的元数据提取模板。系统通过数据库保存和配置模板,模 

板提取实现模板信息的提取及其解析,生成系统模板对象。 

元数据 

提取模板 

/,. 

本地 

元数据库 

{查 冀口 

图2系统模块结构 

3.2元数据提取模板 

元数据提取模板主要定义了元数据源、元数据提取规则 

及其元数据存储规则。模板按照Web信息组织方式进行分 

类,不同类型的模板其组成规则有所不同。不同的Web站点 

针对其信息组织方式定义一个模板实例,此模板实例相当于 

是模板类型针对该站点的一个实例,具体定义了从站点的哪 

些Web页面如何提取元数据,并将元数据存储于本地元数据 

库的什么位置。模板包括模板基本信息、信息检索规则和提 

取规则。 

模板基本信息包括:模板名称、关键字、链接信息。 

定义为: 

(nalne>旅行网线路搜索</nafle> 

<key>ctripline</key> 

<link>http://www.trip.com/supermarket/package/packagebegin

. 

asp</link> 

信息检索规则:定义了Web信息检索模型的各元素。 

<type>sequence</type><!一搜索类型一> 

params><!一传值参数列表..> 

<param> 

<name>pkg</name> 

<value type=”counter”> 

<from>1</from> 

<to>5ooO</to> 

</value> 

</param> 

</params> 

提取规则:定义了元数据提取规则定义了元数据的属性 

集合、属性存储地址以及从Web页面中提取属性值的方法。 

<props><!一-需要提取的属性列表--> 

<group> 

<table>hotelinfo</table><!一保存提取信息的数据库表名一> 

<type>1</tpye><!一提取信息的方式,n表示提取n次,0 

循环提取一> 

<regx><!--提取信息的正则表达式一> 

(exp>& font size=5>\8}(【\uOlO0一、u雎r&】t;>JJ,)、s 

&It;/font></exp (下转第97页) 

维普资讯

6月 徐骏等:Native XML数据库哈希路径索引技术 97 

们往往需要对特定的数据进行查询优化,特别是那些数据量 

[C】.Roma,Italy,2001. 

很大而且需要经常查询的数据。因此,在哈希路径索引结构 

[2】 COOPER B,SHADMON M.The Index Fabric:A mechanism for in— 

中引入传统关系数据库中的层次索引(Layered Indexing)技术 

dexing and queclng the sallle data in many diferent ways[R】. 

来满足这种需要。我们的例子中在对断路器(breaker)进行 

Technical Report,2000. 

索引优化之后,层次哈希路径索引结构如图2所示。 

【3】 MCHUGH】,AB1TEBOUL S,GOu)MAN R,et a1.Lore:A Data— 

这时,查询从第二层开始,如果系统已经对所要查找的信 

base Management System for Semi structured Data[J】.SIGMOD Re— 

cord,1997,26(3):54—66. 

息进行了优化(比如例子中查找断路器),则直接在第二层找 

[4】 SOFTWARE AG.Tamino XML database[EB/OL】.Http://www. 

到相应的指向所要查找的数据的指针,然后在哈希路径索引 

softwareag.com/tamino/. 

. 

树中找到相应的节点。如果系统没有对所要查找的信息进行 

[5】 W3C.Document Objcet Model(DOM)Level 3 Core Speciifcation 

优化(比如例子中查找断开开关(disconnect switch))则与基 

(Version 1.0)[EB/OL】.W3 C Rec0mmendati0n.http://www. 

本哈希路径索引一样,从索引树的根结点开始查找。 

w3.org/TR/2004/REC—DOM—Level・3一Core-20040407/. 

[6】 朱虹,童遥.一种新的XML数据库的索引机制[J】.计算机工程 

3 结语 

与应用,2005,(2):171—226. 

本文借鉴并结合了已经开发出来的Native XML数据库 

[7】LARSON P.Linear Hashing with Seperators—A Dynamic Hashing 

索引技术和传统关系数据库中的层次索引技术,在此基础上 

Scheme Achieving One・Access Retrieval[J】.ACM Transaction on 

提出了一种基于哈希路径(path hashing)的索引技术。哈希 

Datbaase Systems,1988,19(3):366—388. 

路径索引适应了XML文档半结构化、层次多而且不固定的特 

[8】 KNUTH D.The Art of Computer Programming,Vo1.III,Sorting 

nad Searching[M】.Thidr Edition.Addison Wesley,Reading,MA, 

性,具有很好的扩展性,索引所需的存储空间相对比较少,查 

1998. 

找时磁盘I/O只需一次的特点,可以在XML文档数据很大时 

[9】LARSON P.Performance Analysis of Linear Hashing wiht Partial 

保持很好搜索速度和性能。 

Expansions[J】.ACM Transaction on Datbaase Systems,1982,7 

参考文献: 

(4):566—587. 

【1】 COOPER BF,SAMPLE N,FRANKLIN MJ,et a1.A Fast lndex for 【10】BOURRET R.XML and Datbaases December【EB/OL】.http:// 

Semi structured Data[A】.Proceedings of the 27th VLDB Conference 

www.rpbourret.com/xml/XMLAndDatbaases.htm.2004. 

(上接第90页) 

<prep> 

方法能达到很高的正确率;如果Web站点在发布内容时用了 

<name>hotelname</name><!一属性名称一> 

不同的页面模板,该方法的适应性就比较低。 

<field>hotelname</field><!一表中的字段名一> 

<group>1</group> 

5 结语 

<!一在正则表达式的哪个group中取值一> 

</prep> 

本文归纳了多种Web信息组织模型,提出了相应的Web 

信息检索模型,采用基于正则表达式模板的方法实现了面向 

4 实验结果 

领域的元数据检索系统。在这种方法中基于正则表达式的模 

针对旅游行业的元数据信息提取做了实验。提取了两大 

板定义比较困难,需要对正则表达式非常熟悉,作者将进一步 

类元数据信息:全国宾馆信息、全国飞机航班信息。采样站点 

研究利用数据挖掘技术自动生成信息提取规则的方法,设计 

的宾馆信息按照基于序列的信息组织方式,实验构造了此类 

出成熟易用的Web元数据信息检索系统。 

型模板的一个实例。提取的宾馆信息包括多种属性:宾馆名 

参考文献: 

称、所在城市等信息。实验提取了8906个宾馆的信息、12458 

[1】ADELBERG B.NoDOSE—A tool for semi—automatically extracting 

条房间类型信息,宾馆基本信息元数据各属性提取结果如表 

structured and semi—structured data from text documents[A】.Pro- 

ceedings of SIGMOD'98[C】.Septic,Washington,USA"ACM Press, 

1所示。 

1998.283—294. 

表1提取结果 

[2】 SODERLAND S.Learning to extract text.based ifnormation from the 

World Wide Web[A】.Proceedings of 3rd International Conference 

on Knowledge Discovery and Data Mining[e1.1997.251—254. 

[3】 SMITH D,LOPEZ M.Information extraction for semi—structured doc— 

uments[A】.Proceedings of lst Workshop on Management of Semi. 

structured Data[C】.Arizona,1997. 

[4】 ASHISH N,KNOBLOCK C.Wrapper generation for semi—structured 

Internet sources[J】.SIGMOD Record,1997,26(4):8—15. 

其中,宾馆所在城市依据宾馆的详细地址中提取,所以正 

[5】 MUSLFA 1.Extraction patterns for information extraction tsaks:A 

确率相同。宾馆简介的提取由于8 906个宾馆信息页面结构 

survey[A】.Proceedings of Workshop on Machine Learning and In— 

有所差别,所以正确率较低。 

formation Extraction[e1.Orlnado,Florida,1999. 

从以上结果看出,信息抽取时,包含元数据信息的所有 

[6】 FRETI'AG D.Machine learning for ifnormation extraction in ifno ̄ 

Web页面,如果页面之间结构差别较小或者无差别的时候,该 

mal domains[J】.Machine Learningin press,2000,39:169—202. 


本文标签: 信息 数据 提取 模板 模型