admin 管理员组

文章数量: 1086019


2024年4月19日发(作者:matlab中max用法)

维普资讯

教育资源标准化中的XML数据转换方法 

XML Data Transform Method in Education Resource Standardisation 

乔 航 冯梦舟 

(西安电子科技大学经济管理学院西安710071) (西安电子科技大学网络教育学院西安 710071) 

摘要XML为网上教育资源规范化和标准化提供了有效的解决方法。在研究现有的XML文档与教育资源进行 

数据转换的方法的基础上,提出了一种基于元素树的新的数据转换方法。 

关键词标准化数据转换XML元素树 

从我国目前远程教育资源建设现状来看,分布式的教育资 象模型),对其中的节点(元素)进行遍历,每个节点的文本属性 

源之间重复建设、不能实现资源数据的互换互通成为首当其冲 

值作为资源数据信息导入其他符合此标准的数据库中,以实现 

的一个问题。究其原因,最根本的就在于教育资源在基本数据 不同资源库中数据的互换、流通。 

结构上缺乏统一标准(规范)。具体体现在,国家教育部颁布的 

实现不同资源库之间数据的互换,达到教育资源大范围内 

《现代远程教育工程教育资源开发标准>征求意见稿属于上层 

的共享,保证资源建设顺利的实施,以及区域范围内教育资源 

的技术规范,必须具有一定的抽象性与通用性,但在具体实施 

的高效利用和共享。这是《教育资源建设技术规范>基本的应 

教育资源建设时,需要根据这一规范制定更加具体的资源评价 

用模式。 

标准。所以网上教育资源迫切需要一个规范的应用方案和标 

准的资源描述。而XML的出现为网上教育资源规范化和标准 

2现有的数据转换技术 

化提供了有效的解决方法。根据XML定义的标准,可以不用 

XML文档属于半结构化的数据,将它与结构化的数据(关 

考虑资源库的类型、数据结构的复杂情况设计出通用的资源应 

系数据库数据)或非结构化的数据进行转换的时候,关键问题 

用程序,也解决了信息提取、发布、查询的标准化问题。文中主 

是建立不同结构层次之间的映射关系,即如何将XML文档的 

要讨论了利用XML标准化过程中,XML与原有资源(本文如 

机构与其他格式数据的结构对应起来。根据映射关系的建立 

果没有特别指出,这里提到的信息资源都是基于文本的各类文 

方式不同,现有两种不同的数据转换方法:基于模板的转换方 

档)进行数据转换的方法,并提出了一种基于元素树的新的转 

法和基于模型的转换方法。 

换方法。 

2.1基于模板的数据转换方法 基于模板的转换方法并不 

1数据转换的基本结构 

事先定义好XML文档与其他数据之间的映射关系,而是在 

目前教育信息资源库中各类资源品种繁多,如HTML、 

XML文档中嵌入一些可实行的指令。其指令在转换过程中被 

Word、PDF等,虽然这类电子文档的应用环境已经很普及,但是 

系统所识别和执行,执行的结果被替换到指令所在的位置,从 

毕竟对于软硬件的要求各不相同,这就影响了信息资源的流通 

而生成目标XMI 文档。该方法只能完成单向的转换(见图1)。 

和共享。如果不进行对原有资源的XML转换,或者对已经被 

XML标示过的内容,不能转换成与对方使用平台相适应的文档 

格式,那么就谈不到资源的标准化问题了。 

《教育资源建设技术规范>为每类资源都定义了必需数据 

元素(即属性),和可选与扩展的数据元素,资源库的开发者可 

以此为基准,将资源的属性作为数据库的字段,由于遵循了统 

的规范,从而决定了数据库中的字段名、字段的数据类型都 

是一致的,尽管不同地区所采用的开发程序和代码各异,但由 

圈1 基于模扳的散据转换方法 

于底层的数据结构一致,不同应用程序都可实现对资源数据的 

2.2基于模型的数据转换方法 基于模型的转换方法在进 

调用。 

行转换前先建立一个数据模型,该模型体现了XML文档与其 

在进行异地数据互换时,可以将数据库中的信息以通用的 

他格式数据之间的映射关系。通过对于模型的操作,实现XML 

XML文档格式输出,利用DOM(Document Obj ̄ct Model,文档对 文档与其他格式数据的双向转换(见图2)。 

作者简介:乔航.男,1980年生.硕士研究生,研究方向为计算机网络与信息处理。 

圃 

维普资讯

果CP是内容粒子序列列表或选择列表,则对于列表中的每一 

个子内容粒子SubCP;c.如果SubCP是一个名字,则执行第四中 

的a;d.如果SubCP是一个序列列表或者选择列表,则生成一个 

内容模式节点作为R的子节点,然后执行第四中b,生成以该内 

容模式节点为根的子树(见图3)。 

<!ELEMENT father sonl+,(son2 l son3),son4’> 

田2基于模型的数据转换方法 

3基于元素树的数据转换方法 

属性I子元素l其他 

列表I列表l信息 

在研究了已有的数据转换方法的基础上,提出了一种基于 

元素树的转换方法,它是一种基于模型的转换方法。即首先创 

Sonl 

内容模式节点 

建元素树和元素树结点与其他类型数据之间的映射关系,然后 

属性l子元素I其他 

在元素树和映射关系的基础上完成数据转换。 

__『l 孤

列表l列表l信息 

列表I信息 

 

3.1元素树 一棵元素树就是一个DTD所包含的元素之 

间的关系树,它的构成如下:a.元素树的每一个节点对应于 

DTD中的一个元素;b.每个节点包含以下主要信息:属性列表、 

子元素列表和其他信息.c_属性列表包含了该元素的所有属性, 

属性I子元素l其他 

属性 

列表 

每个属性是一个三元组(属性名、属性值、属性类型);d.子元素 

列表l列表I信息 

列表包含了该元素的所有子元素,每个子元素对应一个新的节 

田3元蠢father对应的局部元蠢树 

点.e_其他信息包括父亲节点、元素内容模式、元素内容出现次 

3.2映射关系 在元素树的基础上,仍需定义XML元素与 

数和元素文本内容等。 

其他类型数据之间的映射关系。对于结构化的数据,由于其具 

棵元素树在某些情况下是非完全的,即当有些元素的内 

有良好的结构,可以先定义XML文档与该结构化数据在结构 

容模式中包含子内容模式时,系统将无法确定子内容模式定义 

上的映射规则,然后利用映射规则自动确定XML元素与业务 

的内容应该如何出现。此时,需要插入内容模式节点,说明情 

数据的映射关系。 

况,然后根据实际的数据内容来确定出现哪个内容,应该出现 

以数据库为例,元素树与数据库模式之间的映射规则可以 

多少次。所谓内容模式节点是一种特殊节点,它是为了体现子 

定义如下:元素树的根节点对应数据库中的一个表,称为根表: 

元素所对应的节点。例如下面定义的元素father,其内容模式 

如果一个节点的属性列表或者子元素列表不为空,则该节点称 

是内容粒子的序列列表,即son1、son2或son3、son4是按照顺序 

为表节点,它对应数据库中的一个表;一个表节点的每个属性 

出现在XML文档中的。在father元素的内容模式中包含了一 

一性一属列 表 

和子节点都对应于该节点所对应的表中的一个字段;

个子内容模式,该子内容模式是内容粒子的选择列表,即son2 

兰 

如果一个 

表节点有父节点,那么父节点对应的表称为该节点所对应的表 

一其信 

一他息 

和son3只能够在XML文档中出现二者之一。用一个内容模式 

节点来体现son2和son3之间的选择关系。元素father对应的 

兰 

的父表;数据库中,除了根表以外的表都应该包含一个与其父 

一其信 

表发生关联的外键;除了表节点和内容模式节点以外的节点称 

一他息 

局部元素树如图3。 

为字段节点,它只对应父节点所对应的表中的一个字段。内容 

元素树的生成算法如下: 

模式节点不对应数据库中的任何对象。 

第一,解析给定的DTD,对于所有的不包含在其他元素的 

然而,在实际应用中用户数据的结构(如数据库模式)往往 

元素内容中的元素R,构造一棵以元素R为根节点的元素树。 

已经建立好了,这时需要由用户指定XML元素与学习对象(教 

第二,创建一个节点,其节点名为R。据已经解析的DTD. 

育信息资源的粒化)之间的映射关系,并且将这些数据保存到 

获取元素R的属性列表Attributes,并将Attributes加入到节点 

个映射表。对于非结构化数据,同样需要设计一个映射表, 

R中。 

用来保存XML元素与学习对象的映射关系。 

第三,分析元素R的内容模式,获取节点R的其他信息,并 

3.3 数据转换 基于元素树的转换方法在元素树的基础 

根据每一个元素内容的类型生成节点R的子元素列表EL:a. 

上,根据映射关系制定一系列的执行指令。通过执行这些指 

如果EL是EMPTY类型,则该节点不包含子元素列表,是一个 

令,并将执行结果插入到数据模型中的相应位置,就可以得到 

叶节点;b.如果EL是混合类型,则为其中的字符数据,生成一 

相应的XML文档。同样,执行反向指令就可以把XML文档转 

个节点名为PCDATA的叶节点,对于其他内容继续执行第四; 换为其他格式的数据。由于引入了内容模式节点,系统对XML 

e.如果EL是元素内容类型,则继续执行第四。 

文档结构的限制大大放宽了,而且由于元素树的生成是基于 

第四,根据内容模式每一个内容粒子CP的类型,生成节点 DTD的,因此对于符合同一个DTD的一类XML文档的转换该 

F的子元素列表:a.如果CP是名字S,则生成子节点S,然后找 DTD所对应的元素树可以被多次复用。在如今的网络远程教 

到元素s,并执行第二、第三和第四生成以s为根的子树;b.如 育的过程中,使用者对于信息资源的XML文档对(下转第73页) 

圃 

维普资讯

书馆事业的发展,互操作问题成为图书馆数字化建设的研究重 

点。 

术,从cGI、ODBC、ASP到ADO、jsP/servlet+]avaBean及oMG的 

coRBA规范,基本上是开发应用程序通过浏览器访问数据库的 

过程。图书馆可在门户网站开发程序,在www上实现存取操 

作,利用www机制实现表层的互操作。还有数据仓库与数据挖 

掘技术,数据仓库是由软硬件技术组成的环境,它把各种数据库 

集成为一个统一的数据仓库,并把各种数据转换成面向主题的格 

式,能从异构的数据源中定期抽取、转换和集成所需数据。便于用 

3.2.1 Z39 50协议。Z39.50协议是一个基于C/S结构的 

网络应用层协议,它通过对编码方式和内容语义的标准化来实现 

不同系统间的互操作。Z39.50协议数据单元通过ASN.1进行定 

义,并以基本编码方式(BER)对ASN.1序列化,它屏蔽了数据库 

间的异构性,与软硬件平台、数据库接口及查询语言无关,是一个 

信息界广泛接受的标准协议。 

Z39.50是一个联邦式的互操作方案,要求各仓储支持统一的 

户访问。数据仓库技术在大型数字图书馆工程中应用,可实现概 

念、语义及知识的互操作,但因其涉及领域太多,应用过于复杂, 

搜索语言,或在本地语言和协议语言间能相互转换,能对查询做 

出快速的实时晌应。它要求各数据库在字段级别实现统一,灵活 

性较差。7_39.50是基于TCP/IP的底层协议,传输层协议是基于 

TCP DP的编程,不能提供Http支持,不能在www上实现。 

ZING(Z39.50 International Next Generation)是Z39.50的改进版, 

提供了互操作基于Http实现Web支持。 

7_39.50在图书馆界应用普遍,基本上现在所有的图书馆自动 

广泛推广则不现实。再就是OAI技术、OAI—DMH(Open Archive 

Initiative Protocol for Metadata Harvesting),即基于元数据收获的 

开放文档先导协议,是一种基于元数据的电子文献互操作框架, 

它通过元数据收获这种模式实现互操作。OAI的基本框架是由 

数据提供者生成、发布、管理、组织元数据,由服务提供者以元数 

据收获(Metadata Harvesting)机制对元数据分类组织,向用户提供 

统一查询界面。数据提供者与服务提供者的联系基于一个注册 

化系统和数字图书馆解决方案都提供对7_39.50协议的支持。它 

的实现方式是在各图书馆系统安装7_39.50服务器,客户端安装 

中心,约相当于Internet的域名解析机制。用户向服务提供者提 

出请求,服务提供者基于元数据到注册中心查找数据提供者及其 

Z39.50客户软件,任一服务湍接到请求后,将查询请求分发到各 

地分别执行,将检索结果整理汇总,提供给用户。OCLC、Calis是 

7-39.50应用成功的范例。 

3.2.2跨库检索技术。跨库检索系统主要是解决数据库异 

数据,以统一界面输出结果,其传输过程基于Http。OAI是一个 

互操作框架,它要求资源拥有者参与OAI系统,但能否在真正意 

义上实现还是一个未知数,因为在利益的驱动下各资源拥有者会 

继续自主建设自己的资源,而不是遵循OAf模型。另外,Web 

Services、网格计算(Grip)、语义网(Semantic Web)等新技术的研究 

进展也将为图书馆资源库互操作应用提供有力的技术支持。 

参考文蠢 

构平台的信息检索,向用户提供方便检索的统一界面。跨库检索 

系统一般由包装器(Wrapper)记录数据源的数据访问方法,用户检 

索时,Wrapper将检索表达式转化成每一数据库系统识别的表达 

式,由各系统自主检索,再由抽取器(extractor)对各种结果解析、 

提取、转化为统一格式,整合排序,再将结果通过统一检索界面返 

回给用户。 

1王珊,陈红.数据库系统原理教程 北京:消华大学出版杜。2004 

2周文骏等.中国大百科全书(图书馆学、情报学、档案学卷).北京:中国大 

跨库检索系统是一种局部资源整合方案,在数字图书馆试验 

系统及各大中型图书情报系统得到广泛应用。如今较成熟的跨 

库检索系统有美国Exlibis的SFX、清华同方的TPI、易北宝信公司 

的TRS IIP等。 

3.2.3互操作新技术在图书馆界的应用前景。当前信息技 

百科全书出版杜。1993 

3 肖 卓.人世后国外图书馆自动化系统对我国的冲击.图书馆研究。2003; 

(1) 

4宋援援.数字图书馆中的数据库技术.图书情报工作动态,2003;(1) 

5李大玲.网络环境下资源整合模式探讨.图书馆杂志,2003;(10) 

6喻红辉。王燕华.分布式检索中技术的选择.图书馆杂志。2004;(10) 

7沈艺.oAI协议及其应用.现代图书情报技术。2004;(2) 

(责 :勃梅J 

术领域对互操作问题从不同层面、不同角度展开了深入研究,取 

得了一系列成果。其中有基于网络及接口程序的数据库访问技 

(上接第70页J应的DTD相对来说是固定的(前提是对于学习对 

象元数据的规范已经被使用者采用),一旦所有DTD的元素树 

都生成了,系统可以复用已有的元素树,从而大大提高了系统 

的性能。图4给出了基于元素树的转换方法的架构图。 

4小 结 

基于XML的数据转换方法是利用XML技术实现信息标 

准化的基础。解决了目前分布式的教育资源在各自的信息结 

构、存储组织、发布方式、检索方法、查询约束条件等各方面存 

在的差异,同时也解决了信息提取、发布、查询的标准化问题。 

参考文献 

1 DLTS一3 1学习对象元数据规范,DLTSC。2001 

2教育资源建设技术规范(征求意见稿)。DLTSC。2001 

3孙一中.XML核心技术http://www.xm1.org cFl 

4 S.Ceri。A.Bonilati。E.Damiani,P.Fraternali.S Paraboschi。L Tanca XML- 

GL:a Graphical Language for Querying and Restructuring XML Documents。 

Elsevier Science B.V 

5 D F1orescu。D Kc ̄sman Storing and Querying XML Data using a RDBMS。 

图4 基于元素的转换方法的渠构圈 

IEEE Data Engineering Bulletin。1999;22(3) 

’ (责缡:王京) 

困 


本文标签: 数据 元素 节点 内容 资源