admin 管理员组

文章数量: 1086019


2024年4月20日发(作者:jenkins漏洞)

龙源期刊网

一种基于XML的电子文件元数据封装模型

作者:谭晖甫,张学平,陈晖,王军,郭乐勐

来源:《电脑知识与技术》2010年第13期

摘要:元数据对保证电子文件的真实性、完整性、可靠性有重要的作用,但它用于电子文件

管理实践需要解决与电子文件的关联和封装问题。基于XML的元数据封装模型的提出解决上

述两个问题,为元数据应用于电子文件管理打了良好基础。

关键词:电子文件;元数据;封装模型

中图分类号:TP274文献标识码:A文章编号:1009-3044(2010)13-3308-04

A Encapsulation Model of Electronic Records Metadata Base on XML

TAN Hui-fu1, ZHANG Xue-ping2, CHEN Hui3, WANG Jun1, GUO Le-meng4

(aduate Team 3 Institute of Communications Engineering, PLA Univ. of Sci. & Tech,

Nanjing 210007, China; k Control Center, PLA University of Science & Technology,

Nanjing 210007, China; k Control Center, Institute of Communications Engineering, PLA

University of Science & Technology, Nanjing 210007, China; 'an Communication Institute, Xi'an

710100, China)

Abstract: Metadata plays a important role in ensuring authenticity, reliability, integrity and

usability of electronic records, but there are two problems to solve in order applying metadata to

electronic records management, they are encapsulation of metadata and relationship between

electronic records and metadata. A encapsulation model of metadata for electronic records base on

XML is presented, and it solves two problems above.

Key words: electronic records; metadata; encapsulation model

与纸质文件相比,电子文件具有载体与信息的可分离性、可操作性、不稳定性、流动性[1],

所用技术和载体容易过时,其真实性、完整性、可用性和可靠性更难保证。电子文件元数据是

描述文件的背景、内容、结构及其整个管理过程的数据[2],与电子文件的制作形成、运转、处

理、储存、检索、传输和利用息息相关,以一篇电子版的学位论文为例,它的题名、作者、主

题、描述、导师、日期、资源类型、语种、专业、学位级别等均可视为这份学位论文的元数

据。元数据数据是电子文件管理的重要方法和手段,对保证电子文件的真实性、原始性、可靠

性、可用性有着重要的作用[3]。

1 元数据的置标与封装

龙源期刊网

元数据真正用于电子文件管理需要解决两个问题,一是元数据的置标,即用一种计算机可识

别的形式表示元数据,便于程序处理,二是与电子文件的关联,即元数据与电子文件的对应关系。

由于XML具有标准开放、可扩展和跨平台的优点[4],且可以方便地将XML文档转换为便

于web发布的HTML文档,有利于数据资源共享与分析。同时不管是在什么场合,凡是涉及到数

据输入/输出、存储、传输,都可以使用XML技术。XML技术可以自己定义标签,并且程序可以

方便的读取其中的数据,而且具有类似SQL的查询语言XQuery,可方便用于程序数据处理,可见

XML是一种较理想的元数据置标语言,元数据被置标成一个XML文档。

元数据与电子文件的关联至关重要,失去与电子文件的关联,元数据将变得毫无意义,而丢失

元数据的电子文件其价值也将大打折扣。元数据与电子文件的关联方式有嵌入式、链接和封

装。其中最常用方式是封装,即将电子文件与元数据保存在一起形成封装包,称为电子文件信息

总体。封装包是一个由电子文件及其元数据组成的自我包含的实体,封装之后形成的数据包便

于对电子文件与元数据同时进行管理。

2 元数据封装模型的构建

XML是元数据置标较理想的形式,本文提出的元数据封装模型MDEM(Metadata

Encapsulation Model)就是基于XML的,这个模型是一个标准的XML文档(MDEM文档)。它由

以下几个部分组成。

2.1 头部(MDEM Header)

头部包含了描述MDEM文档自身的元数据。这些元数据包括MDEM文档的创建日期、创

建者、编辑者以及该MDEM文档的状态等。还包括与该MDEM文档有关的机构(agent)以及他

们扮演的角色。为了确保元数据本身的真实性,可在此处放置元数据区元数据的签名信息,用来

表示,最后,还可以记录该MDEM文档的其他标识符,在packageID属性中记录包的标识信息。下

面是一个MDEM头的例子,其最外层的标签为< mdemHead >:

Jerome McDonough

Ann Butler

龙源期刊网

2.2 元数据区(Metadata Area)

用标签来表示整个元数据区,它包含多个子标签,每一条具体元数据记录存放在标签的子标

签内,本模型的使用不限于具体的元数据标准,因此标签内可以放置任何XML形式的元数据,因

为一个MDEM文档可以描述多份电子文件,对每条元数据记录用标签的MDID属性来进行区分,

其结构如下:

……此处是用XML表示的第一条元数据记录……

……此处是用XML表示的第二条元数据记录……

2.3 文件区(File Area)

该部分用来描述与元数据记录对应的电子文件,用标签来表示整个区域,它包含多个子标签,

具体每一份电子文件的描述放在标签里。为了方便进行管理,标签有如下属性:

1) FILEID属性。文件编号,用来区分< fileItem >标签里表示的不同文件,从1开始不重复编

号。

2) RFMD属性。与文件相关的元数据记录号,其值是与该文件相关的那条元数据记录的

MDID属性值。

3) FILEGROUP属性。为了方便对文件进行分组,可为标签设置FILEGROUP属性,其值为

文件组名,具有相同FILEGROUP属性的文件属于同一组。

4) DIV属性。文件与文件之间存在不同的层级问题,可用DIV属性来区别文件的层级,DIV

属性从1开始编号,具有相同DIV的文件属于同一层。

龙源期刊网

5) XLINK属性。用来表示文件与文件之间的链接关系,此功能对于描述WEB网站文件特

别有用。其值是本文档或者外部网站上文件的的网络地址。

接下来考虑标签里数据文件的表示,分两种情况。

2.3.1 数据文件存放在MDEM文档外部

因电子文件与表示元数据的XML文档不在同一位置,需要指明该电子文件的位置,用如下

标签来表示:/tamwag/

其中LOCTYPE属性表示该文件的位置类型是URL,其值为

/tamwag/,因此,我们就按照http协议找到该文件,位置类型还可以有

其它方式,如文件系统(SYSTEM)、句柄系统(handle system)、中文数字对象标识符DOI等等,对

于文件系统,可以用绝对路径或者相对路径来找到该数据文件。如:D:表示数据文件

放置于元数据所在系统的D盘根目录下面,文件名为D:。

2.3.2 数据文件嵌入MDEM文档内部

这种方式数据文件本身成为MDEM文档的一部分,用来表示嵌入的文件。鉴于数据文件格

式的多样性,需要对嵌入方式进行规范。由于MDEM本身是一个XML文档,因此,数据文件本身

是XML文件的,用的子标签来表示,其它格式数据文件一律以Base64编码后,以字符串的形式嵌

入的子标签内。Base64编码的具体内容和优点见文献[5]。数据文件嵌入MDEM文档内部的两

种表示如下所示:

对XML文件,可表示如下:

……此处是XML文件本身的内容……

对其它格式的文件,可表示如下:

……此处是数据文件Base64编码的内容……

该模型用UML建模如图1所示。

龙源期刊网

该元数据封装模型MDEM具体的XML Schema如下:

metadataWrap是元数据封装模型的根元素,包含头部、元数据区、文件区三个子元素。

龙源期刊网

龙源期刊网

龙源期刊网

龙源期刊网

3 结论

元数据封装模型(MDEM)提出了一种灵活的元数据和数据文件封装机制,用于编码电子文件

的元数据和各种类型的数据文件,元数据既可以与数据文件封装在一起保存,也可以分开保存。

支持的文件格式理论上不受限制。该模型不仅可以呈现文件与文件之间的层级关系,还可以表

示文件与文件之间的链接关系,应用灵活,是一种较理想的基于XML的元数据封装模型。

参考文献:

[1] 刘家真.电子文件管理理论与实践北京[M].北京:科学出版让,2003:7-12.

[2] ISO15489-1:2001—information and documentation –record

management[S]./iso/catalogue_?csnumber=31908.

[3] ISO23081-1:2006-information and document—record management process—metadata for

record–part 1:principles[S]./iso/catalogue_?csnumber=40832.

[4] David Hunter,Jeff Rafter,Joe Fawcett,等.XML入门经典[M].吴文国,译.北京:清华大学出版

社,2009.

[5] RFC2045~RFC2049[S]./rfc/.


本文标签: 文件 数据 电子 文档 封装