admin 管理员组文章数量: 1086019
2024年4月19日发(作者:matlab中max用法)
维普资讯
教育资源标准化中的XML数据转换方法
XML Data Transform Method in Education Resource Standardisation
乔 航 冯梦舟
(西安电子科技大学经济管理学院西安710071) (西安电子科技大学网络教育学院西安 710071)
摘要XML为网上教育资源规范化和标准化提供了有效的解决方法。在研究现有的XML文档与教育资源进行
数据转换的方法的基础上,提出了一种基于元素树的新的数据转换方法。
关键词标准化数据转换XML元素树
从我国目前远程教育资源建设现状来看,分布式的教育资 象模型),对其中的节点(元素)进行遍历,每个节点的文本属性
源之间重复建设、不能实现资源数据的互换互通成为首当其冲
值作为资源数据信息导入其他符合此标准的数据库中,以实现
的一个问题。究其原因,最根本的就在于教育资源在基本数据 不同资源库中数据的互换、流通。
结构上缺乏统一标准(规范)。具体体现在,国家教育部颁布的
实现不同资源库之间数据的互换,达到教育资源大范围内
《现代远程教育工程教育资源开发标准>征求意见稿属于上层
的共享,保证资源建设顺利的实施,以及区域范围内教育资源
的技术规范,必须具有一定的抽象性与通用性,但在具体实施
的高效利用和共享。这是《教育资源建设技术规范>基本的应
教育资源建设时,需要根据这一规范制定更加具体的资源评价
用模式。
标准。所以网上教育资源迫切需要一个规范的应用方案和标
准的资源描述。而XML的出现为网上教育资源规范化和标准
2现有的数据转换技术
化提供了有效的解决方法。根据XML定义的标准,可以不用
XML文档属于半结构化的数据,将它与结构化的数据(关
考虑资源库的类型、数据结构的复杂情况设计出通用的资源应
系数据库数据)或非结构化的数据进行转换的时候,关键问题
用程序,也解决了信息提取、发布、查询的标准化问题。文中主
是建立不同结构层次之间的映射关系,即如何将XML文档的
要讨论了利用XML标准化过程中,XML与原有资源(本文如
机构与其他格式数据的结构对应起来。根据映射关系的建立
果没有特别指出,这里提到的信息资源都是基于文本的各类文
方式不同,现有两种不同的数据转换方法:基于模板的转换方
档)进行数据转换的方法,并提出了一种基于元素树的新的转
法和基于模型的转换方法。
换方法。
2.1基于模板的数据转换方法 基于模板的转换方法并不
1数据转换的基本结构
事先定义好XML文档与其他数据之间的映射关系,而是在
目前教育信息资源库中各类资源品种繁多,如HTML、
XML文档中嵌入一些可实行的指令。其指令在转换过程中被
Word、PDF等,虽然这类电子文档的应用环境已经很普及,但是
系统所识别和执行,执行的结果被替换到指令所在的位置,从
毕竟对于软硬件的要求各不相同,这就影响了信息资源的流通
而生成目标XMI 文档。该方法只能完成单向的转换(见图1)。
和共享。如果不进行对原有资源的XML转换,或者对已经被
XML标示过的内容,不能转换成与对方使用平台相适应的文档
格式,那么就谈不到资源的标准化问题了。
《教育资源建设技术规范>为每类资源都定义了必需数据
元素(即属性),和可选与扩展的数据元素,资源库的开发者可
以此为基准,将资源的属性作为数据库的字段,由于遵循了统
一
的规范,从而决定了数据库中的字段名、字段的数据类型都
是一致的,尽管不同地区所采用的开发程序和代码各异,但由
圈1 基于模扳的散据转换方法
于底层的数据结构一致,不同应用程序都可实现对资源数据的
2.2基于模型的数据转换方法 基于模型的转换方法在进
调用。
行转换前先建立一个数据模型,该模型体现了XML文档与其
在进行异地数据互换时,可以将数据库中的信息以通用的
他格式数据之间的映射关系。通过对于模型的操作,实现XML
XML文档格式输出,利用DOM(Document Obj ̄ct Model,文档对 文档与其他格式数据的双向转换(见图2)。
作者简介:乔航.男,1980年生.硕士研究生,研究方向为计算机网络与信息处理。
圃
维普资讯
果CP是内容粒子序列列表或选择列表,则对于列表中的每一
个子内容粒子SubCP;c.如果SubCP是一个名字,则执行第四中
的a;d.如果SubCP是一个序列列表或者选择列表,则生成一个
内容模式节点作为R的子节点,然后执行第四中b,生成以该内
容模式节点为根的子树(见图3)。
<!ELEMENT father sonl+,(son2 l son3),son4’>
田2基于模型的数据转换方法
3基于元素树的数据转换方法
属性I子元素l其他
列表I列表l信息
在研究了已有的数据转换方法的基础上,提出了一种基于
元素树的转换方法,它是一种基于模型的转换方法。即首先创
Sonl
内容模式节点
建元素树和元素树结点与其他类型数据之间的映射关系,然后
属性l子元素I其他
在元素树和映射关系的基础上完成数据转换。
__『l 孤
列表l列表l信息
列表I信息
3.1元素树 一棵元素树就是一个DTD所包含的元素之
间的关系树,它的构成如下:a.元素树的每一个节点对应于
DTD中的一个元素;b.每个节点包含以下主要信息:属性列表、
子元素列表和其他信息.c_属性列表包含了该元素的所有属性,
属性I子元素l其他
属性
列表
每个属性是一个三元组(属性名、属性值、属性类型);d.子元素
列表l列表I信息
列表包含了该元素的所有子元素,每个子元素对应一个新的节
田3元蠢father对应的局部元蠢树
点.e_其他信息包括父亲节点、元素内容模式、元素内容出现次
3.2映射关系 在元素树的基础上,仍需定义XML元素与
数和元素文本内容等。
其他类型数据之间的映射关系。对于结构化的数据,由于其具
一
棵元素树在某些情况下是非完全的,即当有些元素的内
有良好的结构,可以先定义XML文档与该结构化数据在结构
容模式中包含子内容模式时,系统将无法确定子内容模式定义
上的映射规则,然后利用映射规则自动确定XML元素与业务
的内容应该如何出现。此时,需要插入内容模式节点,说明情
数据的映射关系。
况,然后根据实际的数据内容来确定出现哪个内容,应该出现
以数据库为例,元素树与数据库模式之间的映射规则可以
多少次。所谓内容模式节点是一种特殊节点,它是为了体现子
定义如下:元素树的根节点对应数据库中的一个表,称为根表:
元素所对应的节点。例如下面定义的元素father,其内容模式
如果一个节点的属性列表或者子元素列表不为空,则该节点称
是内容粒子的序列列表,即son1、son2或son3、son4是按照顺序
为表节点,它对应数据库中的一个表;一个表节点的每个属性
出现在XML文档中的。在father元素的内容模式中包含了一
一性一属列 表
和子节点都对应于该节点所对应的表中的一个字段;
个子内容模式,该子内容模式是内容粒子的选择列表,即son2
兰
如果一个
表节点有父节点,那么父节点对应的表称为该节点所对应的表
一其信
一他息
和son3只能够在XML文档中出现二者之一。用一个内容模式
节点来体现son2和son3之间的选择关系。元素father对应的
兰
的父表;数据库中,除了根表以外的表都应该包含一个与其父
一其信
表发生关联的外键;除了表节点和内容模式节点以外的节点称
一他息
局部元素树如图3。
为字段节点,它只对应父节点所对应的表中的一个字段。内容
元素树的生成算法如下:
模式节点不对应数据库中的任何对象。
第一,解析给定的DTD,对于所有的不包含在其他元素的
然而,在实际应用中用户数据的结构(如数据库模式)往往
元素内容中的元素R,构造一棵以元素R为根节点的元素树。
已经建立好了,这时需要由用户指定XML元素与学习对象(教
第二,创建一个节点,其节点名为R。据已经解析的DTD.
育信息资源的粒化)之间的映射关系,并且将这些数据保存到
获取元素R的属性列表Attributes,并将Attributes加入到节点
一
个映射表。对于非结构化数据,同样需要设计一个映射表,
R中。
用来保存XML元素与学习对象的映射关系。
第三,分析元素R的内容模式,获取节点R的其他信息,并
3.3 数据转换 基于元素树的转换方法在元素树的基础
根据每一个元素内容的类型生成节点R的子元素列表EL:a.
上,根据映射关系制定一系列的执行指令。通过执行这些指
如果EL是EMPTY类型,则该节点不包含子元素列表,是一个
令,并将执行结果插入到数据模型中的相应位置,就可以得到
叶节点;b.如果EL是混合类型,则为其中的字符数据,生成一
相应的XML文档。同样,执行反向指令就可以把XML文档转
个节点名为PCDATA的叶节点,对于其他内容继续执行第四; 换为其他格式的数据。由于引入了内容模式节点,系统对XML
e.如果EL是元素内容类型,则继续执行第四。
文档结构的限制大大放宽了,而且由于元素树的生成是基于
第四,根据内容模式每一个内容粒子CP的类型,生成节点 DTD的,因此对于符合同一个DTD的一类XML文档的转换该
F的子元素列表:a.如果CP是名字S,则生成子节点S,然后找 DTD所对应的元素树可以被多次复用。在如今的网络远程教
到元素s,并执行第二、第三和第四生成以s为根的子树;b.如 育的过程中,使用者对于信息资源的XML文档对(下转第73页)
圃
维普资讯
书馆事业的发展,互操作问题成为图书馆数字化建设的研究重
点。
术,从cGI、ODBC、ASP到ADO、jsP/servlet+]avaBean及oMG的
coRBA规范,基本上是开发应用程序通过浏览器访问数据库的
过程。图书馆可在门户网站开发程序,在www上实现存取操
作,利用www机制实现表层的互操作。还有数据仓库与数据挖
掘技术,数据仓库是由软硬件技术组成的环境,它把各种数据库
集成为一个统一的数据仓库,并把各种数据转换成面向主题的格
式,能从异构的数据源中定期抽取、转换和集成所需数据。便于用
3.2.1 Z39 50协议。Z39.50协议是一个基于C/S结构的
网络应用层协议,它通过对编码方式和内容语义的标准化来实现
不同系统间的互操作。Z39.50协议数据单元通过ASN.1进行定
义,并以基本编码方式(BER)对ASN.1序列化,它屏蔽了数据库
间的异构性,与软硬件平台、数据库接口及查询语言无关,是一个
信息界广泛接受的标准协议。
Z39.50是一个联邦式的互操作方案,要求各仓储支持统一的
户访问。数据仓库技术在大型数字图书馆工程中应用,可实现概
念、语义及知识的互操作,但因其涉及领域太多,应用过于复杂,
搜索语言,或在本地语言和协议语言间能相互转换,能对查询做
出快速的实时晌应。它要求各数据库在字段级别实现统一,灵活
性较差。7_39.50是基于TCP/IP的底层协议,传输层协议是基于
TCP DP的编程,不能提供Http支持,不能在www上实现。
ZING(Z39.50 International Next Generation)是Z39.50的改进版,
提供了互操作基于Http实现Web支持。
7_39.50在图书馆界应用普遍,基本上现在所有的图书馆自动
广泛推广则不现实。再就是OAI技术、OAI—DMH(Open Archive
Initiative Protocol for Metadata Harvesting),即基于元数据收获的
开放文档先导协议,是一种基于元数据的电子文献互操作框架,
它通过元数据收获这种模式实现互操作。OAI的基本框架是由
数据提供者生成、发布、管理、组织元数据,由服务提供者以元数
据收获(Metadata Harvesting)机制对元数据分类组织,向用户提供
统一查询界面。数据提供者与服务提供者的联系基于一个注册
化系统和数字图书馆解决方案都提供对7_39.50协议的支持。它
的实现方式是在各图书馆系统安装7_39.50服务器,客户端安装
中心,约相当于Internet的域名解析机制。用户向服务提供者提
出请求,服务提供者基于元数据到注册中心查找数据提供者及其
Z39.50客户软件,任一服务湍接到请求后,将查询请求分发到各
地分别执行,将检索结果整理汇总,提供给用户。OCLC、Calis是
7-39.50应用成功的范例。
3.2.2跨库检索技术。跨库检索系统主要是解决数据库异
数据,以统一界面输出结果,其传输过程基于Http。OAI是一个
互操作框架,它要求资源拥有者参与OAI系统,但能否在真正意
义上实现还是一个未知数,因为在利益的驱动下各资源拥有者会
继续自主建设自己的资源,而不是遵循OAf模型。另外,Web
Services、网格计算(Grip)、语义网(Semantic Web)等新技术的研究
进展也将为图书馆资源库互操作应用提供有力的技术支持。
参考文蠢
构平台的信息检索,向用户提供方便检索的统一界面。跨库检索
系统一般由包装器(Wrapper)记录数据源的数据访问方法,用户检
索时,Wrapper将检索表达式转化成每一数据库系统识别的表达
式,由各系统自主检索,再由抽取器(extractor)对各种结果解析、
提取、转化为统一格式,整合排序,再将结果通过统一检索界面返
回给用户。
1王珊,陈红.数据库系统原理教程 北京:消华大学出版杜。2004
2周文骏等.中国大百科全书(图书馆学、情报学、档案学卷).北京:中国大
跨库检索系统是一种局部资源整合方案,在数字图书馆试验
系统及各大中型图书情报系统得到广泛应用。如今较成熟的跨
库检索系统有美国Exlibis的SFX、清华同方的TPI、易北宝信公司
的TRS IIP等。
3.2.3互操作新技术在图书馆界的应用前景。当前信息技
百科全书出版杜。1993
3 肖 卓.人世后国外图书馆自动化系统对我国的冲击.图书馆研究。2003;
(1)
4宋援援.数字图书馆中的数据库技术.图书情报工作动态,2003;(1)
5李大玲.网络环境下资源整合模式探讨.图书馆杂志,2003;(10)
6喻红辉。王燕华.分布式检索中技术的选择.图书馆杂志。2004;(10)
7沈艺.oAI协议及其应用.现代图书情报技术。2004;(2)
(责 :勃梅J
术领域对互操作问题从不同层面、不同角度展开了深入研究,取
得了一系列成果。其中有基于网络及接口程序的数据库访问技
(上接第70页J应的DTD相对来说是固定的(前提是对于学习对
象元数据的规范已经被使用者采用),一旦所有DTD的元素树
都生成了,系统可以复用已有的元素树,从而大大提高了系统
的性能。图4给出了基于元素树的转换方法的架构图。
4小 结
基于XML的数据转换方法是利用XML技术实现信息标
准化的基础。解决了目前分布式的教育资源在各自的信息结
构、存储组织、发布方式、检索方法、查询约束条件等各方面存
在的差异,同时也解决了信息提取、发布、查询的标准化问题。
参考文献
1 DLTS一3 1学习对象元数据规范,DLTSC。2001
2教育资源建设技术规范(征求意见稿)。DLTSC。2001
3孙一中.XML核心技术http://www.xm1.org cFl
4 S.Ceri。A.Bonilati。E.Damiani,P.Fraternali.S Paraboschi。L Tanca XML-
GL:a Graphical Language for Querying and Restructuring XML Documents。
Elsevier Science B.V
5 D F1orescu。D Kc ̄sman Storing and Querying XML Data using a RDBMS。
图4 基于元素的转换方法的渠构圈
IEEE Data Engineering Bulletin。1999;22(3)
’ (责缡:王京)
困
版权声明:本文标题:教育资源标准化中的XML数据转换方法 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.roclinux.cn/p/1713539883a639784.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论