admin 管理员组

文章数量: 1086019


2024年4月19日发(作者:apache反向代理配置)

第25卷第2期 

2015年2月 

计算机技术与发展 

COMPU IER TECHNOLOGY AND DEVELOPMENT 

Vo1.25 No.2 

Feb. 2015 

种基于Word XML的信息隐藏新方法 

董艳,徐江峰 

(郑州大学信息工程学院,河南郑州450000) 

摘要:在应用广泛的Word文档中隐藏秘密信息意义巨大,在对Word 2007中document.xml文件的“修改标识”特性分析 

的基础上,提出了,一种的新的信息隐藏方法。该方法首先根据logistic方程伪随机序列生成器产生的伪随机二进制序列, 

去抽取载体文件document.xml中特定的“修改标识”属性值,而后用秘密信息的十六进制码替换抽取的属性值后六位,从 

而达到隐藏秘密信息的目的。实验结果表明,基于document.xml文件中“修改标识”属性值的信息隐藏新方法,与既有的 

基于Word的信息隐藏方法相比,具有安全性更高、隐蔽性更强等优点。 

关键词:信息隐藏;Word XML格式;修改标识;伪随机序列 

中图分类号:TP301 文献标识码:A 文章编号:1673—629X(2015)02—0122—04 

doi:10.3969/j.issn.1673—629X.2015.02.028 

A New Information Hiding Way Based on Word XML 

DONG Yan.XU Jiang—feng 

(School of Information Engineering,Zhengzhou University,Zhengzhou 450000,China) 

Abstract:It is of great signiifcance tO hide some secret information in a Word document.Based on analyzing the’’revision identiierfs”in 

document.xml of Word 2007 document,propose a new information hiding method.According tO a pseudo—random binary sequence 

which is produced by logistic pseudo—random sequence generator,extract certain attributes of”revision identiifers”in document.xml,and 

change the last six attibutres values with he hexadecitmal secret information,achieving the purpose of hiding secret information.The ex— 

perimental result show that comp ̄with the previous hiding ways based on Word,the new hiding way based on the”revision identi— 

iers”its better in robustness and safety and SO on. 

Key words:information hiding;Word XML;revision identifiers;pseudo—rndom sequence a

0 引 言 

随着网络技术的迅速发展,通过网络传输和获取 

Word文档中隐藏秘密信息的方法 ;刘玉玲、孙星明 

根据特征编码的方法,针对Word文档格式的特点,通 

过改变文档中某些字符的大小以嵌入和检测水印 ; 

王海春等提出了修改Word文档汉字的西文字体来隐 

藏信息 ;莫佳提出通过微调Word文本的字符大小 

而隐藏信息 ;付兵,肖小玲提出修改Word字体的 

RGB颜色低位以及下划线的值来隐藏秘密信息 ;王 

智,周洪玉提出改变Word文档文字字体以实现图片 

的隐藏 。 

信息变得普及,随之也产生了网络信息安全问题。如 

何保护信息在传输过程中的安全问题已经成为信息技 

术研究领域的重要内容,随之出现的信息隐藏技术成 

为解决信息传输安全问题的解决方案之一。信息隐 

藏…(information hiding)是指在图像、视频、音频、文 

本、网页等载体中嵌入一些秘密信息,让第三方难以察 

觉秘密信息的存在。 

基于文本格式文档的信息隐藏技术是近年来发展 

细化出来的一个新分支。其中的Word文档支持文 

字、图形图像等的多格式文件,是目前使用最广泛的文 

本处理软件,因此基于Word文档文本格式的信息隐 

藏得到了广泛的研究,已经取得了一系列成果。刘显 

德等提出了一种根据字符间距编码的方法实现在 

收稿日期:2014—03—24 修回日期:2014—06—25 

1 Word 2007文档分析 

1.1 Microsoft Ofice Word 2007文档包 f

Word 2007提供了一种薪的默认文件格式,叫做 

Microsoft Office Word XML(Word XML格式)。它的默 

认保存格式为“.docx”,改变格式后文档占用空间将有 

网络出版时间:2014一l2—27 

基金项目:国家自然科学基金资助项目(61071211) 

作者简介:董艳(1984一),女,硕士研究生,研究方向为信息隐藏;徐江峰,博士,教授,研究方向为数字水印、信息隐藏、混沌等。 

网络出版地址:http://www.cnki.net/kcms/detail/61.1450.TP.20141227.1348.046.html 

第2期 

董艳等:一种基于word XML的信息隐藏新方法 ・123・ 

定程度的缩小。Word 2007文档包除了主文档doeu— 

Properties)是段落属性修改标识符。W:rsidRPr(Revi— 

sion Identifier ofr Table Row Glyph Formatting)是段落字 ment.xml外,还包括styles.xml,它定义了文档的样式; 

theme1.xml定义文档的模板;document.xm1.rels用于 

重新将这些组件组合成一个完整文档用的指示文件 

形修改标识符,用来跟踪编辑在修改时字符或字形发 

生的改变,所有段落都应该拥有相同的属性值,如果出 

等。事实上,word 2007的基本文件是ZIP格式的 。 

这种格式由一个压缩的ZIP包组成,包中包含了 

现差异,那么表示这个段落在后面的编辑中被修改。 

W:rsidRDefault(Revision Identifier for Runs)是默认的 

文档所有内容 ,如图1所示。 

曰l亩sample 

版本标识符,“W:rsidR”属性变化之前的默认属性,也 

就是版本属性。 

曰{ docProps 

;一凰app.xml 

在W:r(一个样式串,即文本的显示样式)中,(1) 

1圄core.xml 

段落中以相连续的中文或英文字符字符串,作为开始 

和结束。目的就是要把一个段落中的中英文字符区分 

开来。(2)当中文字符有属性时,比如粗、斜、下划线 

时,也会用W:r进行分割和标识,并且会含有一个修改 

甲’{cj word 

__…圃document.xml rels 

圃documen1.xml 

圃fontTable.xml 

settings.xml 

标识的属性W:rsidRPr。 

每一次Word文档被打开编辑时,都会产生1个独 

无二的ID号。这个ID号被保存在“修改标识”的 

0豳s哟tyles.xml 

二一画.reb 

webSettings.xml 

属性值里面,而且它是随机产生的一个字符串,和时间 

等没有关系… 。document.xml的内容如图2所示。 

xmlns:wne= http://schemas。microsoft.com/ofice/woN/2OOqf 

<w:body> 

(w:D w:rsidR=。00457A87’w:rsidl ̄efault='OOOASl2F" 

图1 一个Word 2007文件包含的内容 

w:rsidP= on^512F。> 

(W:r> 

Word 2007文档包括:主文档document.xml;app. 

cw:t>采莲南塘歌,莲花过人头;低头弄莲子,莲千涪如糸.</w 

<,w:r> 

xml file包含了应用程序特定的属性;core.xml file包 

含了所有基于开放打包约定文档格式的通用文件属 

性;docProps folder包含了应用程序的属性部件;rels 

(,w:p> 

<w:D w:rsidR='O0287396 w:rsidRPr='OOOA512F" 

w:r5idRDefau ̄t=。I ̄A512F-W:rsidP=’000A512F ) 

(W:DI)r> 

file描述了文档结构中的起始关系,它称为关系部件; 

rels folder存储所有指定部件的关系部件;[Content— 

Types].xml描述出现在文件中的每个内容类型。 

1.2 Word文件夹中主文档document.xml格式分析 

document.xml是Word 2007的主XML文档,一些 

图2 document.xml中的内容 

在document.xml文件中存在大量的“修改标识”。 

如图2中,W:rsidR=“00457A87”、W:rsidRDefault= 

“000A512F”、W:rsidP=“000A512F”和最后两行的4个 

信息隐藏方案都是在这个xml文档中进行的。图2是 

“修改标志”。 

个Word 2007文档包中的document.xml文件截图, 

元素W:document中的一系列名字空间是主文档所引 

起的文档部件的关系;W:body是正文元素,包含了文 

档的各个段(W:P),每个段包含一个或多个文本域(W: 

r),每个文本域又包含一个或多个文本块(W:t);在W: 

rPr元素中描述了文字的属性、字体、颜色等子元素; 

W:color的属性W:val的属性值即为文字的RGB值;元 

素W:P的属性W:rsidR、W:midRr、W:rsidRDefauh、W: 

rsidP以及W:r的属性W:rsidRr就是“修改标志” 。 

在W:P(一个自然段落)中,W:rsidR(Revision I- 

dentifier for Paragraph)指定唯一一个标识符,用来跟踪 

2基于Word 2007的信息隐藏算法 

2.1算法思想 

在Word 2007文档中隐藏信息需要满足下列 

条件: 

(1)载体文档(隐藏信息后的文档)必须满足 

Word XML格式的要求。 

(2)载体文档必须能正常显示。 

经实验发现,修改Word 2007文件中document. 

xml中“修改标识”的属性值并不会影响文档的正常显 

示和使用。“修改标识”属性值共8位,前两位一般为 

编辑在修订时表行标识,作用:在文档修改中记录修改 

的信息,尤其是合并等情况。特性:只是属性,没有特 

“00”,可以选择“修改标识”属性值的后六位为修改 

位。经实验验证,对Word 2007文档的修改,W:P中以 

下的三个修改标识的属性值不会发生变化,因此,隐藏 

殊意义,可以关闭,信任中心“存储随机数以改善合并 

准确性”。W:rsidP(Revision Identifier for Paragraph 

信息的“修改标识”最好选取W:P元素中的W:rsidR、 

124・ 计算机技术与发展 

2.1.1 算法描述 

第25卷 

W:rsidP、W:rsidRr。文中算法选取修改标识w:rsidP属 

性值的后六位用于信息隐藏。 

文中用到了混沌理论中的logistic方程,当方程的 

信息隐藏过程如下: 

(1)读取word 2007文档中的document.xml(载 

初始条件取一定值时,产生伪随机序列,再转化成伪随 

机二进制序列 S.,初始条件的值作为算法的密钥。 

秘密信息隐藏、提取的流程图如图3、图4所示。 

体文档T),输入秘密信息M,以及一个长度不小于T 

中修改标识个数的伪随机二进制串S,(由0、1组成)。 

(2)将秘密信息M转换为十六进制串M_h。 

(3)按顺序查找T中待修改标识,并判断.s.中对 

应位置的值是否为1,若为1,转(4);否则,转(3)。 

(4)判断M_h中剩余元素是否还有6位,若不够 

选择混沌方程 +1=6 (1. ) 

将初始条件,系统参数作为密钥代入方程 

I 

审 

生成二进制混沌序列S1 

利用S 找到隐藏信息的位置 

一 

图3 秘密信息M的隐藏过程 

选择混沌方程 +l=6 (1-Xn) 

将初始条件,系统参数作为密钥代入方程 

I 

申 

生成 :进制混沌序列Sl 

利用S 找到隐藏信息的位置 

一 

图4秘密信息M的提取过程 

则在剩余元素后填充0,使其长度达到6位,并用此串 

替换对应的修改标识,转(5);否则,取出M—h的连续 

6位并替换对应的修改标识,判断M—h中是否还有元 

素,若有则转(3),否则转(5)。 

(5)T中继续查找待修改标识,并把此标识替换为 

个特定的标识。 

(6)生成载密文档,并替换T,结束。 

信息提取过程如下: 

(1)读取Word 2007文档中的document.xml(载 

体文档T),输入伪随机二进制串s ,秘密信息M赋值 

为空串。 

(2)按顺序查找T中待修改标识,若此标识为特 

定标识,转(4);否则,判断5 中对应位置的值是否为 

1:若为1,转(3);否则,转(2)。 

(3)取出修改标识中对应的后6位,并把其连接 

到已得到的秘密信息M后,转(2)。 

(4)把M转换为二进制字符串,得到秘密信息。 

2.1.2隐藏方法举例 

假如随机选取的修改标识是图2中第一列的W: 

rsidP=“000A512F”和最后一列的W:rsidP= 

“O00A512F”,假设待隐藏信息为:郑州大学,其十六进 

制为:90D15DDE59275B66。待隐藏的信息有l6位,那 

么就选取修改标识属性值的后六位0AS12F为替换 

位。信息隐藏过程如图5所示。 

原属性值0 0 0 A 5 1 2 F 

修改后属性值0 0 9 0 D 1 5 D 

原属性值0 0 0 A 5 1 2 F 

修改后属性值0 0 D E 5 9 2 7 

腺属性值0 0 0 A 5 1 2 F 

修改后属性值0 0 5 B 6 6 0 0 

图5信息隐藏过程 

(隐藏前后“修改标识”的属性值的变化) 

对应于图2信息隐藏前的document.xml文件,图 

6为信息隐藏后的document.xml文件。 

用于隐藏信息的“修改标识”属性值被修改后,新 

的修改标识分为W:rsidP=“0090D15D”、W:rsidP= 

第2期 董艳等:一种基于Word XMI 的信息隐藏新方法 ・l25・ 

“00DE5927”、W:rsidP=“005B6600”,如图6所示。 

xmlns:w n ̄p:/I scnemas- 

woroprocess 

来进行隐藏信息,因此隐藏信息的量与传统算法相比 

有所减少,但隐秘性增加,安全性更高。 

 ̄mlns:wne=。http:// 

comlofifce/word/200 

<w:body> 

<w:O w:rsidR="OO'tSlAS7’ w:rsidRDefault= ̄OOOA¥12F 

w:rsidP= O09OD15D ) 

3 结束语 

文中提出了一种新的基于Word 2007文档“修改 

标识”属性值的信息隐藏方法,通过修改属性值的后 

六位实现秘密信息的隐藏。XML格式为基于文本格 

(W:r> 

(w:t>采莲南塘驮,莲花过人头;低头弄蓬千。莲千清如水.(,w 

(/W:r) 

<,w:p> 

<w:D w:rsidR=*O0287396 w:rsidRPr='OOOAS12F” 

w:rsidRDefaulL= OOOAS12F w:rsidP= O00E5927 > 

<w:pPr> 

一…

一、 

式的信息隐藏提供了巨大的研究空间。实际上,一些 

其他用于XML文档中的信息隐藏的方法也可以在 

Word 2007文档中的XML文件中使用 。下一步的 

主要研究工作将是在该算法的基础上如何增加隐藏秘 

密信息的容量和如何在新版本的Word中实现秘密信 

息的隐藏。 

参考文献: 

[1]Petitcolas F A P,Ande ̄on R J,Kuhn M G.hfformation hiding 

图6隐藏信息后document.xml中的内容 

现选定待隐藏秘密信息为“郑州大学”,按照上述 

流程,将其转化为十六进制串并隐藏在document.xml 

中。实验选取的载体文本包含436字节,解压包大小 

为36 671字节。使用的软件工具:WinRAR、w0rd 

2007、Matlab等 

嵌入秘密信息后word文档的显示效果与嵌人秘 

密信息前相比,没有发生任何改变。嵌入秘密信息后 

的word文档显示效果如图7所示,并且实验证明,提 

取的秘密信息也是正确的。 

a survey[J].Proceedings of the IEEE,1999,87(7):1062— 

1078. 

[2] 刘显德,唐国维,富宇,等.一种基于Word文档的信息隐 

藏方法[J].电子技术应用,2005,3l(4):l6一l7. 

[3] 刘玉玲,孙星明.通过改变文字大小在Word文档中加载数 

曲曲折折的葡塘上面,弥望的是田田的叶子。叶子出水很高,像事事的舞女的裙 

袅铘地开着的,有羞涩地打着朵儿的;正如一粒粒的明珠,叉如碧天里的星星, 

伤拂遗处高楼上渺茫的歌声似的。这时候叶子与花也有一丝的颤动-慑闪电般, 

密地续著,这便宛然有了一谨凝碧的液痕。叶子底下是脉脉的流水,遮住了,不j 

字水印的设计与实现[J].计算机工程与应用,2005,41 

(12):ll0—1l2. 

[4] 王海春,邱寄帆,邱敦国.一种基于Word文档的数字密写 

设计与实现[J].微计算机信息,2006,22(30):47—49. 

[5] 莫 佳.基于Word文本的信息隐藏系统的设计与实现 

图7 嵌入秘密信息后的Word 2007文档 

[J].计算机应用与软件,2009,26(12):278—281. 

[6] 付

[7] 王

兵,肖小玲.一种基于Word文档的高隐藏率水印算法 

智,周洪玉.基于Word文档的信息隐藏方法的实现 

2.2算法分析 

w0r{1 2007文档采用了一种新的Word XML格式, 

只用抽取document.xml文档,就可以实现该算法。 

(1)透明性:隐藏后的载体文件与原始载体文件 

相比,在正常情况下,视觉上完全一样,透明性非常好。 

(2)鲁棒性:文中选择用于隐藏信息的“修改标 

[J].长江大学学报(自科版)理工卷,2007,4(2):55—57. 

[J].信息技术,2008,32(11):30—31. 

[8] 李兵兵,王衍波,徐敏.基于ZIP文档格式的信息隐藏方 

法[J].计算机工程,201l,37(5):155—157. 

[9]Walk through:Word 2007 XML ofrmat[EB/OI ].(2008—08— 

25)[2008—10-25].http://msdn.microsoft.com/en-us/li— 

brary/bb266220.aspx. 

识”属性值的位置,是根据二进制伪随机序列中1的位 

置确定的,而用于产生此二进制串的logistic方程的初 

始值作为密钥,只有加密者和特定的接收秘密信息方 

[10]What’s up with all those rsids?[EB/0I ].[2006—12—11]. 

http//blogs.msdn.corn/brian—jones/archive/2006/12/1 1/ 

what’s—up-with—those—rsids.aspx 

才知道。初始值不同,二进制串就不同,因而秘密信息 

隐藏的位 就不同。与文献[8]相比,该算法几乎不 

能被蓄意破坏,鲁棒性非常好。 

f 1 1]Andrew R,Juan S,James N.A statistical test suite for random 

and pseudorandom number generators for cryptographic appli— 

(3)嵌入容量:document.xml文件中的“修改标 

识”的数量非常可观。秘密信息采用十六进制编码, 

替换“修改标识”的属性值后六位,相当于一个属性值 

可以隐藏24位二进制数。也就是说:假如隐藏5 000 

cations[M].[S.1_]:NIST Special Publication,2001. 

[12]徐敏,王衍波,李涛.Wod2007文档信息隐藏的新方 r

法[J].计算机研究与发展,2009,46(z1):l】2一l16. 

[13]耿建勇.XML安全技术的应用研究[D].北京:中国科学院 

研究生院(计算技术研究所),2005. 

位二进制秘密信息,那么需要“修改标识”的属性值的 

个数为5 000/6 4个。但由于不是所有的标识都用 


本文标签: 信息 隐藏 文档 修改 标识