admin 管理员组文章数量: 1184232
2024年4月20日发(作者:mysql怎么连接别人的数据库)
基于XML技术的WEB数据收集模型的研究
摘要:该文提出了一种基于xml技术的web数据收集模型,并
实现了其中的一些主要功能。同时针对模型系统的不足做了一些有
意义的改进探索。
关键词:xml;web;数据收集;rdf
中图分类号:tp311文献标识码:a文章编号:1007-9599 (2011)
24-0000-01
xml-based web data collection model study
zhang rubing,lai jianjun
(jilin oilfield communications
company,songyuan138000,china)
abstract:this paper proposes an xml-based web data
collection model,and implemented some of the major
lack of model systems to do some meaningful
improvements in exploration.
keywords:xml;the web;data collection;rdf
一、xml简介
xml是由w3c发布的一种新标准,它是sgml的一个简化子集,
将sgml丰富的功能和html的易用性结合起来,以一种开放的、自
我描述的方式定义数据结构。xml文档由标记和字符数据组成,通
过dtd或schema使xml文档结构化,这样很容易验证文档数据的
合法性,容易提取(查询)文档中的数据。可以利用css或xsl在
浏览器中实现同一xml文档的多种显示形式,因而可满足web多种
接入设备的显示要求,利用xslt也可方便地将xml文档译为html
文档或者不同标记表示的xml文档。
二、基于xml的web数据收集模型
(一)模型设计。这个模型是建立在xml技术上的,它包括下
面几个主要问题:在某个站点通过超链接找到目标html页(页面
导航),从这个html页面中取得相关信息(数据抽取),过滤这些
信息并提高他们的结构化(xml文档的存储),根据用户需求查询相
关信息(xml文档的查询)。
1.页面导航。在数据收集过程中会遇到两种html页:包含所需
数据的html页和链接到所需数据页的html页。对web站点的导航
规则可以经过仔细分析目标站点,结合所需数据的特点进行手工编
写或者借助于一些半自动化的工具编写。
2.数据抽取。根据用户需求,抽取相关html页面上的信息。当
前许多web站点上的html代码并不是格式完整的,换句话说html
对格式完整并没有什么严格要求,解析html的浏览器如ie或
netscape都可以容忍一定格式上的缺陷。因此,首先要把这种格式
非良好的html文档转变成格式良好的xml文档。其次通过分析xml
文档提取用户所需的信息。
文档存储。xml数据的存储技术目前已获得广泛研究,除
一些通用的存储系统外,一些专用的存储系统也相继出现,如斯坦
福大学研制的lore系统是较为突出的一个。xml数据存储的三种方
式:存储于文件系统中、存储于数据库系统中、建立专门的存储系
统,对各个系统的优缺点进行分析和比较。
文档查询。xml数据的查询语言应该能够表达基于内容查
询,允许从一个或多个xml数据源中提取所需信息,因此在模型中
选用了由at&t实验室提出的一种基于xml的查询语言xml-ql
(xql)。xml-ql是在查询语言(unql和struql)基础上设计的,
它能对xml文档进行查询、构造、转换和集成。xml-ql集中了查询
语言技术和xml语法格式,通过说明路径表达式和模式的方式,给
出xml数据的提取条件(where子句),同时xml-ql中可以给出构
造查询输出的xml数据的模板,其输出结果仍为xml文档
(constrtuct子句)。
where
计算机系
$n
$c
$cn
$e
in /kjc/
construct
$n
$c
$cn
$e
这个查询要求取回所有由计算机系申报的科研项目(项目名、
内容、负责人、经费)。可以看到xml-ql与sql非常相似,强大的
查询能力完全可用来实现xml数据的重构和不同数据源集成的数据
视图。
(二)关于数据抽取功能的实现。数据抽取是模型实现的一项
重要子功能,怎样把html页面上相关信息提取出来作为用户应用
的需要,这些应用可以是简单的终端浏览器显示、是文本文件、也
可以存到特定的库中作为数据挖掘的来源。该文的思想是将html
文档转变成xml文档,利用xml强大技术,检索得到所要的数据。
在实现过程中,必须注意两点:如前面所述,由于目前的浏览
器可以容忍一定缺陷的html文档,那么如何去验证这个html文档
是否完整,或者说怎样使他的格式完整化;每一个web页的结构内
容都是不同的,如果对每个页面都要进行重编译,此应用程序的效
率非常低,所以怎样避免重编译是个重要问题。
下面以html、xhtml、xml和java技术来具体说明一下数据抽
取的方法,假定已找到目标web页。
1.读入源web页(html文档)并转换成xhtml。可以用stock
把html文档从web服务器上读下来。xhtml是一个与xml兼容的
html版本,包含所有的html元素和属性,xhtml文档有良好的规
则。可以利用w3c站点上的htmltidy工具,实现自动转化。这个
工具使用时分两步处理。第一步,整理html,使它符合html标准。
第二步,实行转化。因此,经过转化后的代码是符合xml格式完整
的代码。
2.遍历文档,找到需要提取数据的引用点。经过前面的格式整
理,文档中的标签有了正确的嵌套格式。采用java构建事件驱动
的方法,主要方法:document_start,接受文档开始时;
document_end,接受文档结束时。element_start,开始一个xml
元素tag时;element_end,结束一个xml元素tag时;characters,
接受xml文档字符时;comment,接受注释时。
上述方法可以正确遍历整个文档。characters返回xml文档内
容,与所需的内容比较,判断是否是需要提取的数据,如果是则通
过element_start、element_end等方法的回调获取当前内容的路
径,即一个xml的tag序列如:html/body/table[2]/tr[2]/td[2],
这个xpath就是所需数据的引用点。
3.结果的处理。如果是首次处理,直接创建一个新的结果文件;
如果已存在结果文件,就通过merge合并函数将本次结果并入已存
在的文件中。最终可通过这个结果文件来观察抽取的正确性。
三、结论
该文论述了xml技术应用于web上文本数据的收集,构筑了一
个模型,讨论了它的一些基本功能和部分功能的实现和不足之处。
xml技术的进一步发展,rdf理论的成熟,怎样应用xml/rdf的理
论和技术来进行分布更广泛、格式更多样的web上数据的收集将是
进一步研究的内容,这对于web上的信息检索、知识发现和数据挖
掘都有意义。
版权声明:本文标题:基于XML技术WEB数据收集模型论文 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.roclinux.cn/p/1713587294a642088.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论