admin 管理员组

文章数量: 1184232


2024年4月20日发(作者:mysql怎么连接别人的数据库)

基于XML技术的WEB数据收集模型的研究

摘要:该文提出了一种基于xml技术的web数据收集模型,并

实现了其中的一些主要功能。同时针对模型系统的不足做了一些有

意义的改进探索。

关键词:xml;web;数据收集;rdf

中图分类号:tp311文献标识码:a文章编号:1007-9599 (2011)

24-0000-01

xml-based web data collection model study

zhang rubing,lai jianjun

(jilin oilfield communications

company,songyuan138000,china)

abstract:this paper proposes an xml-based web data

collection model,and implemented some of the major

lack of model systems to do some meaningful

improvements in exploration.

keywords:xml;the web;data collection;rdf

一、xml简介

xml是由w3c发布的一种新标准,它是sgml的一个简化子集,

将sgml丰富的功能和html的易用性结合起来,以一种开放的、自

我描述的方式定义数据结构。xml文档由标记和字符数据组成,通

过dtd或schema使xml文档结构化,这样很容易验证文档数据的

合法性,容易提取(查询)文档中的数据。可以利用css或xsl在

浏览器中实现同一xml文档的多种显示形式,因而可满足web多种

接入设备的显示要求,利用xslt也可方便地将xml文档译为html

文档或者不同标记表示的xml文档。

二、基于xml的web数据收集模型

(一)模型设计。这个模型是建立在xml技术上的,它包括下

面几个主要问题:在某个站点通过超链接找到目标html页(页面

导航),从这个html页面中取得相关信息(数据抽取),过滤这些

信息并提高他们的结构化(xml文档的存储),根据用户需求查询相

关信息(xml文档的查询)。

1.页面导航。在数据收集过程中会遇到两种html页:包含所需

数据的html页和链接到所需数据页的html页。对web站点的导航

规则可以经过仔细分析目标站点,结合所需数据的特点进行手工编

写或者借助于一些半自动化的工具编写。

2.数据抽取。根据用户需求,抽取相关html页面上的信息。当

前许多web站点上的html代码并不是格式完整的,换句话说html

对格式完整并没有什么严格要求,解析html的浏览器如ie或

netscape都可以容忍一定格式上的缺陷。因此,首先要把这种格式

非良好的html文档转变成格式良好的xml文档。其次通过分析xml

文档提取用户所需的信息。

文档存储。xml数据的存储技术目前已获得广泛研究,除

一些通用的存储系统外,一些专用的存储系统也相继出现,如斯坦

福大学研制的lore系统是较为突出的一个。xml数据存储的三种方

式:存储于文件系统中、存储于数据库系统中、建立专门的存储系

统,对各个系统的优缺点进行分析和比较。

文档查询。xml数据的查询语言应该能够表达基于内容查

询,允许从一个或多个xml数据源中提取所需信息,因此在模型中

选用了由at&t实验室提出的一种基于xml的查询语言xml-ql

(xql)。xml-ql是在查询语言(unql和struql)基础上设计的,

它能对xml文档进行查询、构造、转换和集成。xml-ql集中了查询

语言技术和xml语法格式,通过说明路径表达式和模式的方式,给

出xml数据的提取条件(where子句),同时xml-ql中可以给出构

造查询输出的xml数据的模板,其输出结果仍为xml文档

(constrtuct子句)。

where

计算机系

$n

$c

$cn

$e

in /kjc/

construct

$n

$c

$cn

$e

这个查询要求取回所有由计算机系申报的科研项目(项目名、

内容、负责人、经费)。可以看到xml-ql与sql非常相似,强大的

查询能力完全可用来实现xml数据的重构和不同数据源集成的数据

视图。

(二)关于数据抽取功能的实现。数据抽取是模型实现的一项

重要子功能,怎样把html页面上相关信息提取出来作为用户应用

的需要,这些应用可以是简单的终端浏览器显示、是文本文件、也

可以存到特定的库中作为数据挖掘的来源。该文的思想是将html

文档转变成xml文档,利用xml强大技术,检索得到所要的数据。

在实现过程中,必须注意两点:如前面所述,由于目前的浏览

器可以容忍一定缺陷的html文档,那么如何去验证这个html文档

是否完整,或者说怎样使他的格式完整化;每一个web页的结构内

容都是不同的,如果对每个页面都要进行重编译,此应用程序的效

率非常低,所以怎样避免重编译是个重要问题。

下面以html、xhtml、xml和java技术来具体说明一下数据抽

取的方法,假定已找到目标web页。

1.读入源web页(html文档)并转换成xhtml。可以用stock

把html文档从web服务器上读下来。xhtml是一个与xml兼容的

html版本,包含所有的html元素和属性,xhtml文档有良好的规

则。可以利用w3c站点上的htmltidy工具,实现自动转化。这个

工具使用时分两步处理。第一步,整理html,使它符合html标准。

第二步,实行转化。因此,经过转化后的代码是符合xml格式完整

的代码。

2.遍历文档,找到需要提取数据的引用点。经过前面的格式整

理,文档中的标签有了正确的嵌套格式。采用java构建事件驱动

的方法,主要方法:document_start,接受文档开始时;

document_end,接受文档结束时。element_start,开始一个xml

元素tag时;element_end,结束一个xml元素tag时;characters,

接受xml文档字符时;comment,接受注释时。

上述方法可以正确遍历整个文档。characters返回xml文档内

容,与所需的内容比较,判断是否是需要提取的数据,如果是则通

过element_start、element_end等方法的回调获取当前内容的路

径,即一个xml的tag序列如:html/body/table[2]/tr[2]/td[2],

这个xpath就是所需数据的引用点。

3.结果的处理。如果是首次处理,直接创建一个新的结果文件;

如果已存在结果文件,就通过merge合并函数将本次结果并入已存

在的文件中。最终可通过这个结果文件来观察抽取的正确性。

三、结论

该文论述了xml技术应用于web上文本数据的收集,构筑了一

个模型,讨论了它的一些基本功能和部分功能的实现和不足之处。

xml技术的进一步发展,rdf理论的成熟,怎样应用xml/rdf的理

论和技术来进行分布更广泛、格式更多样的web上数据的收集将是

进一步研究的内容,这对于web上的信息检索、知识发现和数据挖

掘都有意义。


本文标签: 数据 文档 模型 实现 抽取