admin 管理员组

文章数量: 1184232


2024年4月20日发(作者:加拿大对摩纳哥)

总第264期 

2011年第lO期 

计算机与数字工程 

Computer&Digital Engineering 

Vo1.39 No.10 

0 

基于XML的电子文件元数据捕获系统研究 

尚 佳¨ 杨吉江" 许有志¨ 

10O084) (清华大学信息技术研究院Web与软件技术研究中心” 北京100084)(清华大学信息科学技术国家实验室 北京

摘要该文按照OAIS参考模型的概念对电子文件元数据捕获系统进行完整的功能建模分析及体系架构设计,参照 

国家元数据标准完成系统实现,利用XML相关技术对所捕获结果进行有效性验证,可以确保捕获数据的真实性、有效性和 

完整性,满足用户的需求。 

关键词电子政务;电子文件;元数据;捕获;XML 

TP393 中图分类号

Development of XML-based Electronic Record Metadata Capture System 

Shang Jia ’’ Yang Jijiang 。 Xu Youzhi ‘ ’ 

(Web and Software R&D Center,Research Institute of Infommtion Technology,Tsinghua Universitya’,Beijing 100084) 

(Tsinghua National Laboratory for Information Science and Technology(TNList),Tsinghua Universitye ,Beijing 100084) 

Abstract This paper designs the function model for the overall framework and technique architecture of the system in 

accordance with the concept of OAIS reference mode1.The system implementation is based on XML technology.The results 

of the capture have been verified to ensure the authenticity,effectiveness and integrity。SO that the system can satisfy the re— 

quirements of users. 

Key Words E—government,electronic record,metadata,capture,XML 

Class Number TP393 

1 引言 

随着社会信息化进程的进一步发展,政府信息 

化工程的大面积加速发展,档案事业遇到了前所未 

有的机遇和挑战。政府各机关部门产生了大量的 

电子文件,这些文件在各自的办公系统中流转,在 

各个部门系统间进行公文办理、数据交换,最终会 

由数字档案馆来对其进行接收、归档、保管。 

对于各自的办公自动化系统来说,电子公文是 

在这里产生的,它们会在各自的系统内被进一步的 

组织、管理和利用;对于部门之间的系统来说,它们 

数据的进一步扩充;在后期,用户的查询、检索、浏 

览等需求又导致了人们对电子公文的历史记录的 

回溯,它们需要至少提供元数据来满足人们对已长 

期保存或临时保存的文档的查询等需求,这样就催 

生了电子文件中心这一新生机构作为其中的衔接 

环节来进行电子文件管理l】]。 

目前的办公自动化系统中,电子文件仅储存在 

各自的文件系统中,对于元数据而言,并没有统一的 

管理系统来集中管理。而元数据是电子文件管理的 

关键与核心所在,是需要我们进行深入研究的。 

从用户需求的角度考虑,社会公众对某些文件 

有查询、检索、浏览等的需求,因此需要提供电子文 

件的元数据以供用户对其历史记录的回溯。 

所涉及的是数据传递和数据交换的作用,对于电子 

文件本身来说,是对其内容的进一步修改,对其元 

收稿日期:2011年4月13日,修回日期:2011年5月20日 

基金项目:国家973计划(编号:2011CB302302);未来信息技术基金资助。 

作者简介:尚佳,女,硕士研究生,研究方向:电子政务理论及技术应用,业务流程管理。杨吉江,男,副研究员,研究方 

向:电子政务理论及技术应用、信息资源管理、业务流程管理等。许有志,男,博士后,研究方向:电子政务与电子商 

务,知识管理。 

1O 尚 佳等:基于XML的电子文件元数据捕获系统研究 第39卷 

从档案长期保存的角度考虑,当办公自动化系 

统升级,我们也希望能够全程记录电子文件的产 

生、流转过程和所经历的设备变迁。 

序可以更容易的与Windows,Mac()S,Linux以及 

其他平台下产生的信息结合,然后可以很容易加载 

XMI 数据到程序中并分析它,并以XMI 格式输 

出结果。基于XMI 标准的文档为文本格式,XMI 

从数据交换的角度考虑,各部门之间的文档在 

数据交换过程中存在通用性的问题_n],我们期待着 

文本格式的特点使得它不仅能在Internet上,而且 

种可以将结构化数据与数据外观分离的方法来 

因此,本文引入元数据技术和XMI 技术来设 

可以不受任何环境限制方便地操作、存储、传送和 

交换各种类型数据。 

XMI 作为将元数据应用于底层的可扩展标记 

语言,可以将SGMI 的强大的表达能力和HTMI 

表示和传递。 

计电子文件元数据捕获系统,以实现进一步对电子 

文件的管理。 

2 相关技术 

2.1电子文件元数据 

电子文件是指在数字设备及环境中生成,以数 

码形式存储于磁带、磁盘、光盘等载体,依赖计算机 

等数字设备阅读、处理,并可在通信网络上传送的 

文件[3]。元数据(Metadata)就是关于数据的数据。 

它是数字信息组织和处理的基本工具,为各种形态 

的数字化信息单元和资源集合提供了规范、普遍的 

描述标准和方法_4]。元数据是用于提供某种资源 

的有关信息的结构数据,它可以描述信息资源或者 

数据等对象的属性,也可以描述电子文件内容、结 

构、背景信息及整个管理流程,同时,还能够被计算 

机及网络系统自动辨析、分解、提取和分析归纳。 

元数据的主要作用【4]:1)确保并且证明电子 

文件的真实性;2)为档案长期保存提供可靠保障; 

3)方便用户查询、检索;4)有助于电子文件的管 

理和归档。因此,元数据的使用优势在于它可以识 

别资源、评价资源,可以追踪资源在使用过程中的 

变化,可以通过对元数据的管理从而实现简单高效 

的大量网络化数据管理,可以有助于信息资源特征 

的发现、查找、组织、管理和利用。在当今的电子文 

件应用背景下,它具有着不可替代的位置。 

2.2 XMI 技术 

XML是可扩展标记语言(eXtensible Markup 

Language)的简称_5],它是一种简单的数据存储语 

言,使用一系列简单的标记描述数据,而这些标记 

可以用方便的方式建立,虽然XMI 所占用的空间 

要比二进制数据多,但XMI 却更简单,易于掌握 

和使用。 

XMI 的简单使其易于在任何应用程序中读写 

数据,这使XML很快成为数据交换的唯一公共语 

言,虽然不同的应用软件也支持其它的数据交换格 

式,但不久之后它们都将支持XMI ,那就意味着程 

的简单性有机结合起来,具有丰富的结构信息和语 

义信息,并且和平台无关_6]。XMI 可以在数据交 

换中将结构化的数据与业务规则和数据外观相分 

离,可以用统一的方式表示和传递数据。它独立于 

系统之上,从而解决了因系统的异构造成电子文件 

在移交中可能出现的问题。XMI 的可扩展性允许 

用户根据需要自由地定义标签、数据类型和属性 

等,使文档本身具有较强的可读性,同时,还能保证 

电子文件不受软硬件升级的影响,保证它的长期可 

读性。因此,XMI 非常适合在异构平台下进行数 

据交换、信息检索和信息传递等操作,其与平台无 

关的特性决定了它具有着非常强大的可移植特性。 

3 电子文件元数据捕获系统设计 

3.1 OAIS参考模型 

——

I保存汁划卜一 

i /匪 

——

I 行政管理 k-- 

巨 理 

图1 OAIS参考模型逻辑结构 

作为档案界最经典的开放档案信息系统 

(OAIS)参考模型的逻辑结构,OAIS实际上是一个 

概念性的框架,它描述了一个档案系统存在的环 

境、档案系统的功能组织以及支持档案处理的信息 

基础结构同时支持数字化的和物理存在的存档信 

息_7],如图l所示。()AIS参考模型以数字化信息 

为关注点,在整个业务流程中始终以数字信息的传 

递作为主线来思考,并提供了一个完整的档案信息 

保存功能,从摄入、档案存储、数据管理,一直到最 

后存取和分发都有所涵盖。 

2011年第1O期 计算机与数字工程 

3,2电子文件元数据捕获系统功能模型 

行长期保存和数据更新等等。 

对于已经捕获到的并且归档的元数据而言,它 基于OAIS参考模型的逻辑结构,我们从整个 

系统能够实现的功能层面进行功能建模,其系统功 

能模型如图2所示。 

l 

n、 

\ 二/ 

-_—— 

们需要被提供到信息供给的平台以备用户查询、检 

索和浏览。这时候的档案信息包(AIP)便转化成为 

提交信息包(DIP)。它所需要完成的功能是确保提 

供反馈给用户的元数据信息完整、准确并且有效。 

\ 二/ 

当用户提出浏览原文件的要求时,系统应能满足用 

-_—_ 

主动 

王 

.[= 文件 _—— 里=] 

715 

-_—— 

户对原文件地址的查找,并打开原文件供其浏览,缩 

短用户查询该文件更多资料的时间,提高效率。 

数 

据 

圉 L_J 在结线果查反询馈 

: 国 寻 幽 

个部各J 系舟统插动提件捕交 获 接收层 时 归 档辜 临 一— 丛 文射

用 

给 查;臼J 卢 

主动 

^_—

 

 

存_一储 

_—

 

 

匠 长 更 新 

原始文件 

个人提交 保 由 打开浏览 

存 青 

_—— h—— 

_—— -。— 

l接收模 I管

理模劂 

T 

『用户操 

_— 

图2系统功能模型 

整个系统按照档案信息包的传递,在功能上可 

以大致划分为三个模块:接受模块、管理模块和用 

户操作模块。 

在接收模块中,对于部门而言有三种方式来和 

接收平台进行互动,一个是在发送部门和接收部门 

达成一定协议的前提下进行系统提交,一个由接收 

模块向部门的办公自动化系统中嵌入插件来自动 

捕获,还有一种面对临时文件或突发文件由部门来 

进行个人提交。如果各机关部门对接收部门足够 

信任,那么可以采用插件的形式来进行文件数据传 

输,如果各机关部门对安全性持非常高的警惕态 

度,那么完全可以由部门自己来决定电子文件提交 

的方式和时间。这个时期的元数据是处于提交信 

息包(SIP)的封装形式来进行移交的。 

对于已经接收到的电子文件而言,其元数据将 

由提交信息包(SIP)转换为档案信息包(AlP),这 

是在接收到后进行初步的登记、组织、标引、鉴定后 

做一次简单的临时归档形成的。然后由捕获系统 

对其进行元数据的捕获,这包括软件自动捕获和手 

动扩充捕获两部分,对于已捕获的元数据采用 

XMI Schema映射的方式来进行准确性的有效验 

证 ]。在捕获元数据的同时捕获原电子文件的实 

际地址。对于已经结束验证的元数据便可以进行 

元数据归档,存人XML数据库以备用户检索和查 

询。对于那些已经捕获到的文件可以指定一定的 

工作流管理机制,考虑保存的时间,是否有必要进 

3.3 电子文件元数据捕获系统体系架构 

考虑到电子政务系统的实际操作过程,我们从 

技术角度对电子文件元数据捕获系统进行了体系 

架构的设计,如图3所示。系统一共分三层设计。 

最底层为数据访问层,中间一层为系统的业务逻辑 

层,最上层为系统的表示层,也就是和用户的接口。 

图中的箭头表示两层之间存在一定的数据交换。 

表示层 用户界面 

业 辑层 

磋箍 

数据访问层 lJ分布式  鋈 篓 … 

—一 

图3 电子文件元数据捕获系统体系架构 

首先考虑数据访问层。各个机关部门的办公 

自动化系统和文件系统在整体“勺设计框架中可以 

理解为是分布式的资源存储管理系统。系统捕获 

到的元数据将形成格式良好的XML文件进行归 

档后存储到特定的集中式元数据存储系统。这两 

个部分是整个捕获系统的前期数据交换和后期数 

据交换、存取相关的关键环 此外,在捕获过程 

中,还将涉及到对不同格式的电子文件进行文件操 

作和数据交换。 

中间层是业务逻辑层,也就是系统完成整个捕 

获工作的逻辑过程和技术应用流程。对于电子文 

件元数据捕获系统而言,从分布式资源存储管理系 

统中获取了电子文件之后需要对其进行文件种类 

和文件格式判断,以此来决定采用调用的相应格式 

文件元数据的捕获接口。然后对该文件进行元数 

据捕获,包括自动捕获和手动扩充两种方式,在自 

动捕获阶段需要调用相应的文件格式类文件库取 

得相应的接口直接读取原文件的内置属性等元数 

12 尚 佳等:基于XML的电子文件元数据捕获系统研究 第39卷 

据。如果需要对其内容进行提取和捕获的话还需 

要涉及对文字和摘要的提取算法分析研究。此后, 

对于已经捕获到的元数据需要进行Schema的有 

效性验证,保证其真实可靠,并且数据完整满足需 

求和定义。归档后的数据将直接存入集中式元数 

据存储系统。 

位于最上层的表示层,将是用户的直接操作界 

面,主要涉及的是用户和系统对所捕获的元数据给 

予提供的数据交换过程。 

4 电子文件元数据捕获系统实现 

4.1元数据的选择 

在各部门的办公自动化系统中形成电子文件 

时会有一批系统元数据随之产生,比如文件的产生 

时间、日期、部门、文件格式种类等,当电子文件经 

过标准化处理和系统之间的流转后,将会逐步添加 

定的人工元数据,比如文件的安全等级、版本号、 

修改时间等等,最终形成一份涵括系统元数据和人 

工元数据的电子文件。我们选择所捕获的元数据 

时将从这两个方面考虑。根据国家元数据标准,我 

们选择了其中的10种元数据_9]进行捕获系统实现 

的i贝4试,如表1所列。 

表1测试阶段捕获的1O种元数据 

4.2元数据的捕获 

针对Microsoft Word文档来说,自动捕获元 

数据首先需要把MSWORD文件加入资源, 

MSwoRD囊括了Microsoft Office Word 2003对 

VC++程序的绝大多数接口。然后,利用程序接 

口调用Word.Application,然后调用程序打开用户 

选择的word文件,读取其内容,这一步的操作主要 

是为了实现用户对该word文档的浏览功能。此 

后,先捕获该文档所含元数据的个数,然后依次读 

取每一个元数据并进行数据格式转换和记录,在此 

过程中同时进行异常捕获,如果发现有数据类型异 

常的捕获出现,则返回到数据类型转换一步,记该 

数据为不可用状态,其他异常捕获均按照C代码规 

则的对异常捕获的来处理。当元数据被自动提取 

完毕后,向用户进行消息提醒,告知用户来确认自 

动关闭该word文件,在此操作前将会对word原 

数据内容进行隐式保存,确保数据不会丢失。 

此时虽然完成了程序对元数据的自动捕获,但是 

得到的数据并不一定都是我们预期的,因此还需要手 

工扩展元数据,确保元数据捕获的准确性和完整I生。 

最后用户对所捕获的元数据进行确认的时候, 

系统将会自动将用户订正后的元数据以XML格 

式文档进行保存。 

4.3 XML数据存取机制 

对于XMI 文档,通过文档对象模型DOM 

(Document Object Mode1)读取XMI 文档中的节 

点是最基本的XMI 存取技术E ],它可以提供一组 

API来存取XMI 数据,从实现角度上说,它是通 

过C++语言来实现的。 

4.4 XMI Schema验证 

在对捕获结果的完整性和准确性进行验证方 

面,我们采用XMI Schema和XML文档进行关联 

映射的方法_1 。 

首先通过程序入 

口来连接数据源,数 

据源有可能是数据库 

形式也可能是XMI 

单文档形式,但是目 

前的数据库管理系统 

图4元数据捕获结果 

都提供了将查询结果 

转化为XMI 文档的功能,因此最终基本都可以归 

结为是对XMI 单文档进行格式分析。在进行格 

式分析过程中,需要将源XMI 文档和事先定义的 

XMI Schema文档进行关联,通过Schema的关系 

映射表对其数据一一映射,从而验证该XMI 文档 

是否满足其Schema对元数据的定义,验证结束后 

如果该XMI 文档满足其各项映射关系,则可以保 

证此次所捕获的元数据的准确性和完整性。 

图4展示的为本电子文件元数据捕获系统按照 

前述所列1O种待捕获元数据进行测试的捕获结果。 

5 结语 

本文参照()AIS参考模型,从系统应用的角度 

建立功能模型,既保证了电子文件捕获系统的功能 

完备,又兼顾了将来投人使用后和电子文件接收平 

(下转第3l页) 

2011年第1O期 计算机与数字工程 31 

合中选择值最大的文本D,作为初始中心点。 

涵盖网球、政治、娱乐,进行分词、计算TF-IDF_6]、 

5)从集合P中删除与选中文档D,所有簇相 

降维 预处理后用作本次实验的数据集。 

关的文档文本。即利用相似度矩阵,如果S(D , 

在聚类实验中,某次随机选取中心点如图1所 

D,)≥口(如果在一个簇中两个文档D 和D,的相似 示,基于初始化中心的优化选取算法选取的中心点 

度S(D ,D,) ,0< 1,则认为这两个文档是簇 如图2所示。 

相关),则P—P一{a,}。如果P一 ,并且仍未找到 对比两次中心点的选取结果,得出经过优化算 

是个中心点,将删除集合中的文本重新加入集合。 法得出的中心点均在其类簇中,在后期迭代的次数 

6)重复上述操作4)、5)直至得到全部k个中 

较少而且不容易陷入局部最优。 

心点。 

参考文献 

7)最后,将得到的k个中心点作为聚类算法 

Eli Richard O.Duda,Peter E.Hart.模式分类[M].李宏 

的初始中心点。 

东,姚天翔,等,译.北京:机械工业出版社,2010 

算法中初始点选择主要是基于尽量让不同簇 

[21 Rui Xu,Wunsck Survey of Clustering AlgorithmsEJ]. 

中的点作为初始中心点。初始中心点都是从集合 

IEEE Trans on Neural Net works,2005,16(3):645~678 

P中选择平均相似度最大的文本,并且删除集合P 

[33 Jain AK,Murty MN,Flynn PJ.Data ciustering:a review 

中与初始中心点簇相关的文本,这样选取出的中心 

[I .ACMComputign Surveys,1999,31(3):265 ̄281 

[4]王子兴,冯志勇.Web文档聚类中k means算法的改进 

点不但具有代表性而且分散。平均相似度越大表 

IJ].微型计算机与应用,2004(4):50 ̄52 

明这篇文档与其它文档的相似关系更紧密,也就更 

[5]张立.基于新闻评论数据的K—means聚类算法的研究 

接近其所在簇的中心点。 

[D].太原:太原理工大学,2010 

3聚类效果评价 

[6]邹海,李梅.一种用于文本聚类的改进二分K均值算法 

_J].微型计算机与应用,2010(12):64 ̄67 

[7]高茂庭,陆鹏.基于投影寻踪降维的文本特征可视化 

EJ].计算机应用,2008,28(6):1411~1413 

[8]陈正鸣.基于遗传算法的k-means聚类方法的研究 

FD].南京:河海大学,2007:56 ̄57 

[9]Hammouda K,Kamel M.Collaborative document clus— 

tering[C]//2006 SIAM Conference on Data Mining 

图1随机选取的 图2优化后选取的 

(SDM06).2006:453 ̄463 

初始中心点 

初始中心点 

[1o]李双虎,王铁洪.Kmeans聚类分析算法中一个新的确 

实验测试用的文档是从搜狐网站下载的文档, 

定聚类个数有效性的指标EJ3.河北省科学院学报, 

选用其中的900篇。对这900篇文档手工分三类, 

2003,20(4):199~2O1 

坏 坏 环 钸 矫 场 币 石 尔 !矫 : 

(上接第12页) 

[R].浙江大学档案馆,2005,9 

台、数据库等的接口功能。同时完成了电子文件元 

[5]Extensible Markup Language(XML)[DB/OL].ht一 

数据捕获系统的实现,以国家元数据标准中的10项 

{f .w3.org/XML/ 

为例进行了系统测试,及XMI Schema验证,保证了 

[6]张磊.XML的优 ,,g.[DB/OL].CSDN技术中心,http:// 

捕获元数据的真实、有效、完整,能够满足用户对此 

WZ.csdn.net/url/748155/ 

提出的功能建设要求,系统具有广阔的发展前景。 

[7]方燕,张志敏.深圳市数字档案馆建设情况简介[R】.深 

圳市档案局,2007,7 

参考文献 

[8]何国辉.基于XML的电子政务系统设计[J].微计算机 

[1]杨吉江.我国电子政务发展及关键技术[R].清华大学, 

信息,2006,22(3):15l~154 

2008—3—6 

Eg]段荣婷.XMI 在电子文件元数据管理中的应用[J].图 

E2]姜继忱。基于XML的电子政务系统的数据交换设计 

书情报知识,2002(6):53~54 

[J].微型电脑应用,2006,22(7):18 ̄21 

ElO]吴洁.XMI 应用教程[M].北京:清华大学出版社, 

[3]电子文件归档与管理规范GB/T 18894—2oo2Es].国家 

2005 

质量监督检验检疫总局,2002,12 

[11]何国辉.基于XML的电子政务系统设计EJ].微计算 

[4]金更达,何嘉荪.电子文件元数据标准设计框架研究 

机信息,2006,22(3):151~154 


本文标签: 数据 文件 捕获