admin 管理员组文章数量: 1086019
2024年3月10日发(作者:miscategorized)
维普资讯
第26卷
2006年6月
文章编号:1001—9081(2006)06Z一0089—02
计算机应用
Computer Applications
Vo1.26
June 2006
基于Web信息组织模型的元数据检索技术
高玉珠,刘瑞
(北京航空航天大学计算机学院,北京100083)
(gaoyz@nlsde.buaa.edu.cn)
摘要:针对目前互联网搜索引擎主要使用全文检索技术,无法从Web页面中提取元数据信息
情况,设计了一个基于信息组织模型的Web元数据信息提取和检索系统。使用基于正则表达式的元
数据信息提取模型,信息提取和索引程序不断从数量巨大的Web页面中提取元数据信息,对本地元
数据库进行不断地更新。抽象了多种Web信息组织模型,设计了相应的信息检索模型,并且这些模
型可以大范围地应用于提取Web站点的元数据,所采用的方法充分利用了Web页面的数据结构,避
免了采用复杂的语法、语义分析,为面向多个领域的元数据信息检索做出了一定的研究和探索。
关键词:元数据;搜索引擎;检索模型;组织模型
中图分类号:TP311.13 文献标识码:A
合E构成,并且每条边e∈E连接一个有序顶点对。图G=
( ,E)。
0 引言
搜索引擎以一定的策略在互联网中搜集、发现信息,对信
息进行理解、提取、组织和处理,并为用户提供检索服务,起到
信息导航的目的。目前的网络搜索技术只是停留在互联网的
表面,搜索的仅仅是静态网页,而有很多动态的、结构化的深
层信息是隐藏在数据库里的,普通的搜索引擎对这些信息无
法搜索、索引和分析。目前大部分搜索引擎都是基于关键字
查找和全文的检索技术,虽然搜索到的结果较多,但很多都是
无用的信息,用户很难从中挑选他们所需要的资源。由于目
前的搜索技术无法直接深入到数据库,因此面临着三个难题:
1)如何从数据库得到请求响应,获取数据;2)如何将获取的
数据进行组织;3)如何整合这些信息并呈现出来。
CRYSTAL…和WHISK 需要语义分析,实现过程比较复杂。
目前多数Web站点的Web页面都是使用了这种信息组
织方式,站点上所有的页面都通过链接相互指向,构成一个有
向图。如图1所示,每个结点表示一个页面,箭头表示页面之
间的链接。
InfoExtractorL] 为特定网站设计,可扩性较差。WrapperL4 的方
法适用于具有较好结构的页面情况,但对于没有标出字体大
小和缩格情况的内容无法进行抽取,因此在设计中除了考虑
网页的风格之外,还考虑了相互关联的属性模式,以便从Web
文档中抽取有用信息。
文中归纳了多种Web信息组织模型,针对各种信息组织
方式的特征,提出了相应的Web信息检索模型,使用基于正
索系统,完成了Web信息抽取工作。
…
12
图1 Web有向链接
1.2基于序列的信息组织模型
设基数集合C={1,2,…,n},链接集合U={ur2,,ur2 ,
,
ur2 },映射g:c— 是双射;结果数据信息R是一个集合
{rt,r2,…,rm},映射h:U—R是双射。所以检索函数
基于这种方式组织的Web数据信息,可以通过确定其基
数集合即可得到其链接集合,进而通过链接访问网页得到所
则表达式模板的方法来描述检索模型,实现了Web元数据检
f=gh=C—R是双射。
1 Web信息组织模型
互联网Web信息组织模型是指发布在Web站点上的Web
页面及其数据的组织方式。通过抽象Web信息组织方式,归
纳出相应的信息提取模型,针对模型设计元数据提取策略。
本文归纳了三种主要的Web信息组织模型:(1)基于有
向图的链接组织模型;(2)基于序列的信息组织模型;(3)基
于参数的动态组织模型。
1.1基于有向图的链接组织模型
有向图(网站)由一个顶点(页面)集合 和边(链接)集
收稿日期:2005—10—18;修订日期:2005—12-06
有Web数据信息。
对于动态网页,可以序列化ur2参数的方式将数据发布到
网站中,{u I。<i<b}。
1.3基于参数的动态组织模型
用户在Web页面中输入参数提交表单进行查询,查询的
结果依据用户输入的参数而定。参数P是一个元组(po,P。,
…
,
P ),表示有n个参数域;结果数据信息R是一个集合lr1,
r2,…,rm},表示所有的数据集合;检索函数f:P—R 。
基金项目:国家科技部基金资助项目(2003DKA5G015)
作者简介:高玉珠(1980一)。女,天津人,硕士研究生,主要研究方向:互联网检索、信息提取技术;刘瑞(1970一),男,陕西宝鸡人,讲师
博士,主要研究方向:数据库原理与应用、数据仓库、数据挖掘.
维普资讯
计算机应用 2006血
2 Web信息检索模型
针对不同的Web信息组织模型建立相应的信息检索模
型,使用基于XML的模板进行描述。
2.1 Web页面发现机制
模板分析器:依据系统模板对象,解析模板语义,产生不
同类型的爬虫程序。对于以上提及的每种Web信息组织方
式,系统对应一类信息提取程序(爬虫程序),检索站点的元
数据。
元数据提取:根据提取模板,从Web页面中提取元数据。
元数据更新、索引:将元数据更新到本地元数据库中,并
且建立数据索引。
本地元数据库:维护元数据信息索引的数据库。
外部查询接口:为用户检索Web信息设计的数据查询接
口,接口直接查询本地元数据库,将元数据返回给客户端。
根据web信息组织方式不同,Web页面发现机制也不
同。本文针对以上三种信息组织方式建立了相应的Web页
面发现机制。
(1)有向图链接模型
链接模型假设元数据所在的Web页面地址存在一种规
则,系统只检索符合这种规则的Web页面提取元数据。设集
【 l
合A是网站所有页面的集合,定义规则函数:
, 、
rTrue如果 符合链接规则r
一一 LFalse如果 不符合链接规则r
其中 为输人的链接,r为定义的规则。
设 为需要检索的页面集合,则 ={ J ∈A A g( ,r)。
通过网络爬虫程序遍历网站所有的链接取得集合A;对A中每
个元素进行规则匹配,得到链接集合L。
(2)序列模型
序列模型包括基数集合、序列参数、基本链接。序列参数
是一个字符串常量s,基本链接是一个字符串常量b;根据基
数集合C={1,2,…,l't},通过链接构造函数h(c b)即可求
得序列模型的链接集合 ={^(c,s,b)J c∈C}。
(3)动态参数模型
设有n个参数,标记为P ,…,P ,其定义域分别为P,,P:,
…
,
P ,设函数P为链接构造函数e(p ,P:,…,P ),则L=
{P(pl,P2,…,P )JPl∈Pl A P2∈P2 A…A P ∈P }是模
型的链接集合。P(pl,P2,…,P )参数P1,P:,…,P 对应于Web
页面中表单的域,定义域P ,P2,…,P 的确定,需要根据Web
页面中表单域的可输入值范围确定。
2.2元数据提取规则
元数据的提取采用正则表达式的方法,从Web页面中匹
配出元数据。一个正则表达式可以匹配出元数据的多个属性
值。
3 系统实现
3.1系统概要
本文按照以上提及的三种web信息组织模型,分别建立
了相应的信息提取模型,构造了元数据提取的模板。在此基
础上,系统通过面向对象动态插件的技术,支持对新模板的扩
充。对于不同的Web信息组织方式,信息提取的方式必然不
同。系统中,信息提取通过爬虫程序实现,系统定义了抽象的
信息提取接口,通过实现爬虫接H即可支持不同类型的模板,
从而实现对不同信息组织方式的网站进行信息检索。
系统的模块结构图如图2所示。
元数据提取模板:以XML格式定义了爬虫程序在指定网
站提取结构化数据的方式以及元数据各数据域的提取规则。
模板提取:提取和管理系统中各种元数据模板。系统将
模板信息以XML的方式存储,对于不同的Web站点都有相
应的元数据提取模板。系统通过数据库保存和配置模板,模
板提取实现模板信息的提取及其解析,生成系统模板对象。
元数据
提取模板
/,.
.
本地
元数据库
{查 冀口
图2系统模块结构
3.2元数据提取模板
元数据提取模板主要定义了元数据源、元数据提取规则
及其元数据存储规则。模板按照Web信息组织方式进行分
类,不同类型的模板其组成规则有所不同。不同的Web站点
针对其信息组织方式定义一个模板实例,此模板实例相当于
是模板类型针对该站点的一个实例,具体定义了从站点的哪
些Web页面如何提取元数据,并将元数据存储于本地元数据
库的什么位置。模板包括模板基本信息、信息检索规则和提
取规则。
模板基本信息包括:模板名称、关键字、链接信息。
定义为:
(nalne>旅行网线路搜索</nafle>
<key>ctripline</key>
<link>http://www.trip.com/supermarket/package/packagebegin
.
asp</link>
信息检索规则:定义了Web信息检索模型的各元素。
<type>sequence</type><!一搜索类型一>
params><!一传值参数列表..>
<param>
<name>pkg</name>
<value type=”counter”>
<from>1</from>
<to>5ooO</to>
</value>
</param>
</params>
提取规则:定义了元数据提取规则定义了元数据的属性
集合、属性存储地址以及从Web页面中提取属性值的方法。
<props><!一-需要提取的属性列表-->
<group>
<table>hotelinfo</table><!一保存提取信息的数据库表名一>
<type>1</tpye><!一提取信息的方式,n表示提取n次,0
循环提取一>
<regx><!--提取信息的正则表达式一>
(exp>& font size=5>\8}(【\uOlO0一、u雎r&】t;>JJ,)、s
&It;/font></exp (下转第97页)
维普资讯
6月 徐骏等:Native XML数据库哈希路径索引技术 97
们往往需要对特定的数据进行查询优化,特别是那些数据量
[C】.Roma,Italy,2001.
很大而且需要经常查询的数据。因此,在哈希路径索引结构
[2】 COOPER B,SHADMON M.The Index Fabric:A mechanism for in—
中引入传统关系数据库中的层次索引(Layered Indexing)技术
dexing and queclng the sallle data in many diferent ways[R】.
来满足这种需要。我们的例子中在对断路器(breaker)进行
Technical Report,2000.
索引优化之后,层次哈希路径索引结构如图2所示。
【3】 MCHUGH】,AB1TEBOUL S,GOu)MAN R,et a1.Lore:A Data—
这时,查询从第二层开始,如果系统已经对所要查找的信
base Management System for Semi structured Data[J】.SIGMOD Re—
cord,1997,26(3):54—66.
息进行了优化(比如例子中查找断路器),则直接在第二层找
[4】 SOFTWARE AG.Tamino XML database[EB/OL】.Http://www.
到相应的指向所要查找的数据的指针,然后在哈希路径索引
softwareag.com/tamino/.
.
树中找到相应的节点。如果系统没有对所要查找的信息进行
[5】 W3C.Document Objcet Model(DOM)Level 3 Core Speciifcation
优化(比如例子中查找断开开关(disconnect switch))则与基
(Version 1.0)[EB/OL】.W3 C Rec0mmendati0n.http://www.
本哈希路径索引一样,从索引树的根结点开始查找。
w3.org/TR/2004/REC—DOM—Level・3一Core-20040407/.
[6】 朱虹,童遥.一种新的XML数据库的索引机制[J】.计算机工程
3 结语
与应用,2005,(2):171—226.
本文借鉴并结合了已经开发出来的Native XML数据库
[7】LARSON P.Linear Hashing with Seperators—A Dynamic Hashing
索引技术和传统关系数据库中的层次索引技术,在此基础上
Scheme Achieving One・Access Retrieval[J】.ACM Transaction on
提出了一种基于哈希路径(path hashing)的索引技术。哈希
Datbaase Systems,1988,19(3):366—388.
路径索引适应了XML文档半结构化、层次多而且不固定的特
[8】 KNUTH D.The Art of Computer Programming,Vo1.III,Sorting
nad Searching[M】.Thidr Edition.Addison Wesley,Reading,MA,
性,具有很好的扩展性,索引所需的存储空间相对比较少,查
1998.
找时磁盘I/O只需一次的特点,可以在XML文档数据很大时
[9】LARSON P.Performance Analysis of Linear Hashing wiht Partial
保持很好搜索速度和性能。
Expansions[J】.ACM Transaction on Datbaase Systems,1982,7
参考文献:
(4):566—587.
【1】 COOPER BF,SAMPLE N,FRANKLIN MJ,et a1.A Fast lndex for 【10】BOURRET R.XML and Datbaases December【EB/OL】.http://
Semi structured Data[A】.Proceedings of the 27th VLDB Conference
www.rpbourret.com/xml/XMLAndDatbaases.htm.2004.
(上接第90页)
<prep>
方法能达到很高的正确率;如果Web站点在发布内容时用了
<name>hotelname</name><!一属性名称一>
不同的页面模板,该方法的适应性就比较低。
<field>hotelname</field><!一表中的字段名一>
<group>1</group>
5 结语
<!一在正则表达式的哪个group中取值一>
</prep>
本文归纳了多种Web信息组织模型,提出了相应的Web
信息检索模型,采用基于正则表达式模板的方法实现了面向
4 实验结果
领域的元数据检索系统。在这种方法中基于正则表达式的模
针对旅游行业的元数据信息提取做了实验。提取了两大
板定义比较困难,需要对正则表达式非常熟悉,作者将进一步
类元数据信息:全国宾馆信息、全国飞机航班信息。采样站点
研究利用数据挖掘技术自动生成信息提取规则的方法,设计
的宾馆信息按照基于序列的信息组织方式,实验构造了此类
出成熟易用的Web元数据信息检索系统。
型模板的一个实例。提取的宾馆信息包括多种属性:宾馆名
参考文献:
称、所在城市等信息。实验提取了8906个宾馆的信息、12458
[1】ADELBERG B.NoDOSE—A tool for semi—automatically extracting
条房间类型信息,宾馆基本信息元数据各属性提取结果如表
structured and semi—structured data from text documents[A】.Pro-
ceedings of SIGMOD'98[C】.Septic,Washington,USA"ACM Press,
1所示。
1998.283—294.
表1提取结果
[2】 SODERLAND S.Learning to extract text.based ifnormation from the
World Wide Web[A】.Proceedings of 3rd International Conference
on Knowledge Discovery and Data Mining[e1.1997.251—254.
[3】 SMITH D,LOPEZ M.Information extraction for semi—structured doc—
uments[A】.Proceedings of lst Workshop on Management of Semi.
structured Data[C】.Arizona,1997.
[4】 ASHISH N,KNOBLOCK C.Wrapper generation for semi—structured
Internet sources[J】.SIGMOD Record,1997,26(4):8—15.
其中,宾馆所在城市依据宾馆的详细地址中提取,所以正
[5】 MUSLFA 1.Extraction patterns for information extraction tsaks:A
确率相同。宾馆简介的提取由于8 906个宾馆信息页面结构
survey[A】.Proceedings of Workshop on Machine Learning and In—
有所差别,所以正确率较低。
formation Extraction[e1.Orlnado,Florida,1999.
从以上结果看出,信息抽取时,包含元数据信息的所有
[6】 FRETI'AG D.Machine learning for ifnormation extraction in ifno ̄
Web页面,如果页面之间结构差别较小或者无差别的时候,该
mal domains[J】.Machine Learningin press,2000,39:169—202.
版权声明:本文标题:基于Web信息组织模型的元数据检索技术 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.roclinux.cn/p/1710076499a556595.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论