首页技术日记正文内容

基于XML技术WEB数据收集模型论文

技术日记

更新时间：2026-04-03 21:13:53 110

admin 管理员组

文章数量: 1184232

2024年4月20日发(作者：mysql怎么连接别人的数据库)

基于XML技术的WEB数据收集模型的研究

摘要：该文提出了一种基于xml技术的web数据收集模型，并

实现了其中的一些主要功能。同时针对模型系统的不足做了一些有

意义的改进探索。

关键词：xml；web；数据收集；rdf

中图分类号：tp311文献标识码：a文章编号：1007-9599 (2011)

24-0000-01

xml-based web data collection model study

zhang rubing,lai jianjun

(jilin oilfield communications

company,songyuan138000,china)

abstract:this paper proposes an xml-based web data

collection model,and implemented some of the major

lack of model systems to do some meaningful

improvements in exploration.

keywords:xml;the web;data collection;rdf

一、xml简介

xml是由w3c发布的一种新标准，它是sgml的一个简化子集，

将sgml丰富的功能和html的易用性结合起来，以一种开放的、自

我描述的方式定义数据结构。xml文档由标记和字符数据组成，通

过dtd或schema使xml文档结构化，这样很容易验证文档数据的

合法性，容易提取（查询）文档中的数据。可以利用css或xsl在

浏览器中实现同一xml文档的多种显示形式，因而可满足web多种

接入设备的显示要求，利用xslt也可方便地将xml文档译为html

文档或者不同标记表示的xml文档。

二、基于xml的web数据收集模型

（一）模型设计。这个模型是建立在xml技术上的，它包括下

面几个主要问题：在某个站点通过超链接找到目标html页（页面

导航），从这个html页面中取得相关信息（数据抽取），过滤这些

信息并提高他们的结构化（xml文档的存储），根据用户需求查询相

关信息（xml文档的查询）。

1.页面导航。在数据收集过程中会遇到两种html页：包含所需

数据的html页和链接到所需数据页的html页。对web站点的导航

规则可以经过仔细分析目标站点，结合所需数据的特点进行手工编

写或者借助于一些半自动化的工具编写。

2.数据抽取。根据用户需求，抽取相关html页面上的信息。当

前许多web站点上的html代码并不是格式完整的，换句话说html

对格式完整并没有什么严格要求，解析html的浏览器如ie或

netscape都可以容忍一定格式上的缺陷。因此，首先要把这种格式

非良好的html文档转变成格式良好的xml文档。其次通过分析xml

文档提取用户所需的信息。

文档存储。xml数据的存储技术目前已获得广泛研究，除

一些通用的存储系统外，一些专用的存储系统也相继出现，如斯坦

福大学研制的lore系统是较为突出的一个。xml数据存储的三种方

式：存储于文件系统中、存储于数据库系统中、建立专门的存储系

统，对各个系统的优缺点进行分析和比较。

文档查询。xml数据的查询语言应该能够表达基于内容查

询，允许从一个或多个xml数据源中提取所需信息，因此在模型中

选用了由at&t实验室提出的一种基于xml的查询语言xml-ql

（xql）。xml-ql是在查询语言（unql和struql）基础上设计的，

它能对xml文档进行查询、构造、转换和集成。xml-ql集中了查询

语言技术和xml语法格式，通过说明路径表达式和模式的方式，给

出xml数据的提取条件（where子句），同时xml-ql中可以给出构

造查询输出的xml数据的模板，其输出结果仍为xml文档

（constrtuct子句）。

where

计算机系

$cn

in /kjc/

construct

$cn

这个查询要求取回所有由计算机系申报的科研项目（项目名、

内容、负责人、经费）。可以看到xml-ql与sql非常相似，强大的

查询能力完全可用来实现xml数据的重构和不同数据源集成的数据

视图。

（二）关于数据抽取功能的实现。数据抽取是模型实现的一项

重要子功能，怎样把html页面上相关信息提取出来作为用户应用

的需要，这些应用可以是简单的终端浏览器显示、是文本文件、也

可以存到特定的库中作为数据挖掘的来源。该文的思想是将html

文档转变成xml文档，利用xml强大技术，检索得到所要的数据。

在实现过程中，必须注意两点：如前面所述，由于目前的浏览

器可以容忍一定缺陷的html文档，那么如何去验证这个html文档

是否完整，或者说怎样使他的格式完整化；每一个web页的结构内

容都是不同的，如果对每个页面都要进行重编译，此应用程序的效

率非常低，所以怎样避免重编译是个重要问题。

下面以html、xhtml、xml和java技术来具体说明一下数据抽

取的方法，假定已找到目标web页。

1.读入源web页（html文档）并转换成xhtml。可以用stock

把html文档从web服务器上读下来。xhtml是一个与xml兼容的

html版本，包含所有的html元素和属性，xhtml文档有良好的规

则。可以利用w3c站点上的htmltidy工具，实现自动转化。这个

工具使用时分两步处理。第一步，整理html，使它符合html标准。

第二步，实行转化。因此，经过转化后的代码是符合xml格式完整

的代码。

2.遍历文档，找到需要提取数据的引用点。经过前面的格式整

理，文档中的标签有了正确的嵌套格式。采用java构建事件驱动

的方法，主要方法：document_start，接受文档开始时；

document_end，接受文档结束时。element_start，开始一个xml

元素tag时；element_end，结束一个xml元素tag时；characters，

接受xml文档字符时；comment，接受注释时。

上述方法可以正确遍历整个文档。characters返回xml文档内

容，与所需的内容比较，判断是否是需要提取的数据，如果是则通

过element_start、element_end等方法的回调获取当前内容的路

径，即一个xml的tag序列如：html/body/table[2]/tr[2]/td[2]，

这个xpath就是所需数据的引用点。

3.结果的处理。如果是首次处理，直接创建一个新的结果文件；

如果已存在结果文件，就通过merge合并函数将本次结果并入已存

在的文件中。最终可通过这个结果文件来观察抽取的正确性。

三、结论

该文论述了xml技术应用于web上文本数据的收集，构筑了一

个模型，讨论了它的一些基本功能和部分功能的实现和不足之处。

xml技术的进一步发展，rdf理论的成熟，怎样应用xml/rdf的理

论和技术来进行分布更广泛、格式更多样的web上数据的收集将是

进一步研究的内容，这对于web上的信息检索、知识发现和数据挖

掘都有意义。

本文标签：数据文档模型实现抽取

版权声明：本文标题：基于XML技术WEB数据收集模型论文内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.roclinux.cn/p/1713587294a642088.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

发表评论

全部评论 0

暂无评论

Linux大棚 – 不忘初心的技术博客，浮躁时代的安静角落

基于XML技术WEB数据收集模型论文

更多相关文章

探索GIS文件的秘密武器，解析技巧与应用秘籍

全面解读NRG文件：Adobe Flash Player助力编程大法

SSD硬盘操作秘籍：深入了解SSD内部的读写逻辑、认识FTL并掌握TRIM优化技巧

高效管理YOLOv8训练流程，GPUCPU资源实时监控助手

从菜鸟到高手：快速上手技巧，轻松获取你的网卡“丢包率”数据。

想打开Word文档却受挫？这里有一个实用小技巧助你一臂之力！

012-XMP数据处理：打造Adobe Flash Player内核的XMP架构

在32位与64位之间：操作系统的内存与处理器挑战

NRG文件不再难：Flash开发者指南与实战技巧

Mac小白也能学会：深度清理系统垃圾，加速效率

点燃AI新思维：深度学习实战中的火焰烟雾检测

Yolox与注意力机制联手，点燃火焰与烟雾检测新纪元

即时更新：厂里Flash中心的最热文章，深度剖析Adobe Flash Player的前沿技术

深度解读硬盘性能排行榜，助你选购顶级硬盘！

玩转Windows Phone 8.1应用设置：_applicationdatacontainer_localsettings全解析

掌握IMX6U启动过程：内部Boot ROM、IVT、Boot data、DCD与led.bin文件详解

基于Matlab的MDF文件导入与处理研究_matlabmdf格式数据处理

火灾烟雾智能检测

有关webscraper的问题，看这个就够了_web scraper

英雄联盟战斗力与隐藏分查询系统源码实战项目

发表评论

推荐文章

尝试播放Flash内容时，遭遇‘文件未找到’提示！

使用jQuery实现动态添加和删除文本框_jq 怎么给每张图片加上删除功能的边框

家庭网络设置指南：从网线到路由器配置详解

非常规手段免疫U盘病毒(Autorun.inf)_autorun.inf免疫器

手机连WiFi后CSDN访问不了？看这里快速解决

热门文章

当程序启动卡壳，mfc71d.dll找不到？快来看看，一招帮你解决！

WiFi共享精灵开启成功，为何手机依旧没网？快速修复教程！

编程艺术与关机速度：快速关机在SWF与Flash Player中的微妙平衡

Win7 32位系统下的惠普打印机驱动安装攻略：一步到位！

定义一个名为Vehicles 交通工具 的基类 该类中应包含String类型的成员属性brand 商标 和color 颜色 还应包含成员方法showInfo 显示信息_c++定义一个名为vehicles(交通工具)的基类,该类中应包含string类型的数据

电脑品牌与驱动大全

Mac book pro wifi 频繁掉线，解决方案_mac的wifi一直来回总掉线

迅雷最近经常异常崩溃，写个Python脚本自动监控重启之

【学习笔记】Android进程调度及优化_processstate foreground visible

EasyRecovery失败案例：找不到任何Flash、Adobe的踪迹！

最新文章

一文教会你AIX系统备份：mksysb实用指南

SWF文件备份失败？这些步骤让你轻松搞定

Win10系统备份轻松搞定：掌握captureimage命令的关键技巧

Linux系统安全小贴士：掌握备份与恢复，安心每一天

省时省心！三步完成电脑系统高效备份！

Ubuntu系统维护秘籍：备份步骤详解，保护你的劳动成果！

Linux系统不哭：高效备份与快速恢复方案

Ubuntu系统安全大计，备份技巧大公开

GHOST教程：系统备份和还原，小白也能变成高手！

Linux备份与恢复必修课：SWF文件安全策略从入门到精通

Exploring the Finest Accommodations: A Comprehensive Guide to Ruston LA Hotels

The Enchanting Experience of ScaliniTella NYC: A Culinary Gem in the Heart of Manhattan

Exploring the Exquisite Aloft Chicago O'Hare: A Blend of Modern Luxury and Convenience

A Culinary Journey: Discovering the Finest Dining Experiences in Waco, TX

A Culinary Journey: Discovering the Finest Dining Experiences in Athens, GA

电脑设备管理器在哪里？一次让我抓狂又兴奋的寻找经历

与GWX的持久战：一段关于Windows10升级弹窗的私人记忆

以管理员身份运行：那些年我们追过的权限与踩过的坑

定义一个名为Vehicles 交通工具的基类该类中应包含String类型的成员属性brand 商标和color 颜色还应包含成员方法showInfo 显示信息_c++定义一个名为vehicles(交通工具)的基类,该类中应包含string类型的数据