基于XML的数据解析软件设计与实现-Linux大棚

admin 管理员组

文章数量: 1184232

2024年4月20日发(作者：八种排序时间复杂度)

ＩＳＳＮ　１００９—３０４４　

Ｅ—ｍａｉｌ：ｘｓｊｌ＠ｄｎｚｓ．ｎｅｔ．ｅＩｌ　

Ｃｏｍｐｕｔｅｒ　Ｋｎｏｗｌｅｄｇｅ　ａｎｄ　Ｔｅｃｈｎｏｌｏｇｙ电脑知识与技术　

ｈｔｔｐ：／／ｗｗｗ．ｄｎｚｓ．ｎｅｔ．ｅｎ　

Ｖｏ１．１０，Ｎｏ．１，Ｊａｎｕａｒｙ　２０１４　

Ｔｅ１：＋８６—５５　１－６５６９０９６３　６５６９０９６４　

基于ＸＭＬ的数据解析软件设计与实现　

辛怀声，王鹏　

（中国电子科技集团电子科学研究院，北京１０００４１）　

摘要：在开展数据处理和数据分析的工作前，常常需要对采集的原始数据进行解析处理，常规的方法是针对大量的数据接　

口分别开发解析代码，这样做不仅工作量大，代码冗余度高，日后对接口进行修改或添加时都需要同步修改解析程序的相　

应代码，给数据分析处理工作带来极大的困难。为了有效解决这一问题，该文提出了一种基于ＸＭＬ的数据解析方法，实　

现接口定义和程序编码的隔离，能够在不改动程序代码情况下，实现数据接ｔ２的按需添加或修改，有利于节约后期针对解　

析程序的开发和维护成本。　

关键词：ＸＭＬ；数据解析；隔离；接口　

中图分类号：ＴＰ３１９　文献标识码：Ａ　文章编号：１００９—３０４４（２０１４）０１—００５７—０３　

Ｄｅｓｉｇｎ　ａｎｄ　Ｉｍｐｌｅｍｅｎｔａｔｉｏｎ　ｏｆ　ａ　Ｄａｔａ　Ｐａｒｓｉｎｇ　Ｓｏｆｔｗａｒｅ　Ｂａｓｅｄ　ｏｎ　ＸＭＬ　

ＸＩＮ　Ｈｕａｉ—ｓｈｅｎｇ，ＷＡＮＧ　Ｐｅｎｇ　

（Ｅｌｅｃｔｒｏｎｉｃｓ　Ｔｅｃｈｎｏｌｏｇｙ　Ａｃａｄｅｍｙ　ｏｆ　Ｃｈｉｎａ　Ｅｌｅｃｔｒｏｎｉｃｓ　Ｔｅｃｈｎｏｌｏｇｙ　Ｇｒｏｕｐ　Ｃｏｒｐｏｒａｔｉｏｎ，Ｂｅｉｊｉｎｇ　１　０００４１，Ｃｈｉｎａ）　

Ａｂｓｔｒａｃｔ：Ｄａｔａ　ｐａｒｓｉｎｇ　ｉｓ　ａｌｗａｙｓ　ｒｅｑｕｉｒｅｄ　ｂｅｆｏｒｅ　ｄａｔａ　ｐｒｏｃｅｓｓｉｎｇ　ａｎｄ　ｄａｔａ　ａｎａｌｙｓｉｓ．Ｔｒａｄｉｔｉｏｎａｌ　ｗａｙ　ｔＯ　ｐａｒｓｅ　ａ　ｄａｔａ　ｆｉｌｅ　ｉｓ　ｄｏ　ｃｏｄｉｎｇ　

ｆｏｒ　ｅａｃｈ　ｄａｔａ　ｉｎｔｅｒｆａｃｅ．Ｂｕｔ　ｔｈｉｓ　ｍｅｔｈｏｄ　ｗｉｌｌ　ｎｏｔ　ｏｎｌｙ　ｃｒｅａｔｅ　ａ　ｌｏｔ　ｏｆ　ｒｅｄｕｎｄａｎｔ　ｃｏｄｉｎｇ　ｗｏｒｋ，ｂｕｔ　ａｌｓｏ　ｒｅｑｕｉｒｅ　ａ　ｌｏｔ　ｏｆ　ｍａｉｎｔｅｎａｎｃｅ　

ｅｆｆｏｒｔ　ｗｈｅｎ　ｔｈｅｒｅ　ｉｓ　ａ　ｎｅｗ　ｄａｔａ　ｉｎｔｅｒｆａｃｅ　ｏｒ　ａ　ｄａｔａ　ｉｎｔｅｒｆａｃｅ　ｃｈａｎｇｅｓ．Ｉｎ　ｏｒｄｅｒ　ｔＯ　ｒｅｓｏｌｖｅ　ｔｈｉｓ　ｐｒｏｂｌｅｍ，ａ　ｎｅｗ　ｄａｔａ　ｐａｒｓｉｎｇ　ｍｅｔｈｏｄ　

ｗｈｉｃｈ　ｉｓ　ｂａｓｅｄ　ｏｎ　ＸＭＬ　ｉｓ　ｐｒｅｓｅｎｔｅｄ　ｈｅｒｅ．Ｔｈｅ　ｄａｔａ　ｉｎｔｅｒｆａｃｅｓ　ｃａｎ　ｂｅ　ｃｈａｎｇｅｄ　ｏｒ　ａｄｄｅｄ　ｄｙｎａｍｉｃａｌｌｙ．ｈｏｗｅｖｅｒ　ｃｏｄｅ　ｍｏｄｉｉｆｃａｔｉｏｎ　

ｏｆｒ　ｅａｃｈ　ｉｎｔｅｒｆａｃｅ　ｗｉｌｌ　ｎｏｔ　ｂｅ　ｎｅｅｄｅｄ　ａｎｙ　ｍｏｒｅ，ａｎｄ　ｔｈｅ　ｍａｉｎｔｅｎａｎｃｅ　ａｎｄ　ｄｅｖｅｌｏｐｍｅｎｔ　ＣＯＳｔ　ｗｉｌ　ａｌｓｏ　ｂｅ　ｒｅｄｕｃｅｄ．　

Ｋｅｙ　ｗｏｒｄｓ：ＸＭＬ；ｄａｔａ　ｐａｒｓｉｎｇ；ｓｅｐａｒａｔｅ；ｉｎｔｅ而ｃｅ　

１概述　

在日常软件工程中为了优化或者增加新功能往往需要对数据接口进行修改或删减。这时数据记录设备记录下来的数据格式　

也会随之发生改变。对于事后的数据分析处理工作来说，这意味着数据解析的开发工作会伴随着数据接口的改变而一直进行。　

经常出现的一种情况就是进行数据解析时程序报错，进行错误定位之后发现是数据格式发生了变化，于是需要对相应的数据接口　

进行代码开发或更改，这给数据解析工作带了很大的不便，降低了数据分析的效率，也加大了数据解析和分析出错的几率。　

２解决办法　

可扩展标记语言（Ｅｘｔｅｎｓｉｂｌｅ　Ｍａｒｋｕｐ　Ｌａｎｇｕａｇｅ，ＸＭＬ）是一种用于描述数据与平台无关的语言，以一种开放的自我描述方式定　

义数据结构，在描述数据内容的同时突出对结构的描述，是一种存储结构化数据的规范”叫。ＸＭＬ是一种元标记语言，可以用来定　

义其他的标记语言，并且这些标记语言的元素标记是由用户自己定义的。所以由ＸＭＬ可以派生出无限多种标记语言。在这些标　

记语言必须根据一定得规则来定义和组织，但是这些标记在其含义上是非常灵活的　。　

本文使用ＸＭＬ对接口数据进行映射，不在程序代码中对数据接口进行“硬编码”，之后针对ＸＭＬ生成文件解析指令序列，最后按　

照指令序列对数据文件进行解析，把解析程序代码与接口定义进行隔离，从而使数据接口的更改对解析程序代码的影响降到最低。　

３程序设计　

３．１　ＸＭＬ与数据结构映射　

待解析的数据都是由网络报文记录而成的二进制文件，报文内容如图１所示。　

如图１所示，最前面的数据是消息代码，用来标识消息类型，之后是消息长度，用来标识消息之间的边界位置。通过这两个值　

我们可以识别和解析数据文件中的所有二进制数据的内容。对于上述数据，我们可以用数据结构（ｓｔｅｒｅｔ）或类（ｃｌａｓｓ）来进行抽象。　

如下面Ｃ＋＋代码所示：　

ｓｔｒｕｅｔ　Ｈｅａｄｅｒ　

｛ｉｎｔ　ｍｅｓｓａｇｅｔｙｐｅ；　

ｉｎｔ　ｌｅｎｇｔｈ；　

收稿日期：２０１３—１２—１０　

本栏目责任编辑：谢媛媛　软件设计开发　５７　

Ｃｏｍｐｕｔｅｒ　Ｋｎｏｗｌｅｄｇｅ　ａｎｄ　Ｔｅｃｈｎｏｌｏｇｙ电脑知识与技术　

第１Ｏ卷第１期（２０１４年１月）　

消息类型　消息长度　

～　

！　一一　…　．；　一　一　；．

消息头　

＝进制数据　

图１数据格式　

ｃｈａｒ　ｓｐａｒｅ［４】　

｝；　

ｓｔｒｕｃｔ　ＤａｔａＴｙｐｅＡ　

・　

｛Ｈｅａｄｅｒ　ｈｅａｄ；　

ｉｎｔＡ：　

ｉｎｔ　Ｂ　

１；　

接口数据类型ＤａｔａＴｙｐｅＡ包括了消息头结构和消息体数据Ａ和Ｂ。消息头包括了消息类型消息长度和一些其他数据以及保留　

数据空间。　

进一步可以用ＸＭＬ对其进行表示，如下所示：　

＜？ｘｍｌ　ｖｅｒｓｉｏｎ＝”１．０”ｅｎｃｏｄｉｎｇ＝”ｕｔｆ＿８”？＞　

＜Ｎａｍｅ＞ＤａｔａＴｙｐｅＡ＜／Ｎａｍｅ＞　

＜Ｓｔｒｕｃｔｕｒｅｓ＞　

＜ＳｔｒｕｅｔＤｅｆｉｎｉｔｉｏｎ　Ｔｙｐｅ＝”ＨＥＡＤＥＲ”＞　

＜Ｍｅｍｂｅｒ　ＩＤ＝”ＭＥＳＳＡＧＥＪＩＹＰＥ”Ｔｙｐｅ＝”ｉｎｔ”Ａｒｒａｙ＝”１”Ｖａｌｕｅ＝”０”Ｓｔｙｌｅ＝”ｅｌｅｍｅｎｔ”／＞　

＜Ｍｅｍｂｅｒ　ＩＤ＝”ＭＥＳＳＡＧＥＬＥＮ”Ｔｙｐｅ＝”ｉｎｔ”Ａｒｒａｙ＝”１”Ｖａｌｕｅ＝”０”Ｓｔｙｌｅ＝”ｅｌｅｍｅｎｔ”，＞　

＿

＜Ｍｅｍｂｅｒ　ＩＤ＝”ＭＥＳＳＡＧＥＳＰＡＲＥ”Ｔｙｐｅ＝”ｃｈａｒ”Ａｒｒａｙ＝”４”Ｖａｌｕｅ＝”０”Ｓｔｙｌｅ＝”ｅｌｅｍｅｎｔ”／＞　

—

＜／ＳｔｒｕｃｔＤｅｆｉｎｉｔｉｏｎ＞　

＜ＳｔｒｕｃｔＤｅｆｉｎｉｔｉｏｎ　Ｔｙｐｅ＝’’ＤａｔａＴｙｐｅＡ”＞　

＜Ｍｅｍｂｅｒ　ＩＤ＝”ＨＥＡＤＥＲ”Ｔｙｐｅ＝”ＨＥＡＤＥＲ”Ａｒｒａｙ＝”１”Ｖａｌｕｅ－￣”０”Ｓｔｙｌｅ＝”ｓｔｒｕｃｔｕｒｅ”／＞　

＜Ｍｅｍｂｅｒ　ＩＤ＝”Ａ”Ｔｙｐｅ＝”ｉｎｔ”Ａｒｒａｙ＝”１”Ｖａｌｕｅ＝”０”Ｓｔｙｌｅ＝”ｅｌ６ｍｅｎｔ”／＞　

＜Ｍｅｍｂｅｒ　ＩＤ＝”Ｂ”Ｔｙｐｅ＝”ｉｎｔ”Ａｒｒａｙ＝”１”Ｖａｌｕｅ＝”０”Ｓｔｙｌｅ＝”ｅｌｅｍｅｎｔ”／＞　

＜／ＳｔｒｕｅｔＤｅｆｉｎｉｔｉｏｎ＞　

＜／Ｓｔｒｕｃｔｕｒｅｓ＞　

　、

上面的ＸＭＬ中ＩＤ表示数据项名称。Ａｒｒａｙ表示是否为数组，如果Ａｒｒａｙ的值是１，则表示单个数据项，如果大于１，则表示一个　

数组。Ｓｔｙｌｅ表示是否为嵌套的数据结构，如果值为“ｅｌｅｍｅｎｔ”表示不是数据结构，如果值为“ｓｔｒｕｃｔｕｒｅ”则表示是数据结构，需要从　

ＸＭＬ中另行查找它的具体定义。从上面ＸＭＬ中可以看出，这里定义了两类数据结构，一类是ＨＥＡＤＥＲ数据结构，另一类是　

ＤａｔａＴｙｐｅＡ数据结构，而ＤａｔａＴｙｐｅＡ数据结构又嵌套了ＨＥＡＤＥＲ数据结构。这与前面的ｃ＋＋代码是一致的。通过上面的步骤，我们　

建立了一种二进制接口数据到ＸＭＬ的映射。　

３．２文件解析指令序列　

对数据接１：３进行ＸＭＬ映射之后，程序代码就可以与具体的数据接口定义进行隔离了，从而实现数据接口变化不影响程序代码　

的目标。为了实现程序代码与数据接口隔离，程序将根据ＸＭＬ文件的内容生成一系列的数据解析指令。这里的指令序列指的是　

由一系列文件读取的长度和数据类型组成的序列，如下表１所示：　

表１数据解析指令序列　

接口类型　数据名称　

ＭＥＳＳＡＧＥ

ＴＹＰＥ　

＿

数据类型　

ｉｎｔ　

ＭＥＳＳＡＧＥＬＥＮ　

—

ｍｔ　

ｃｈａｒ　ＭＥＳＳＡＧＥＳＰＡＲＥ　

—

ＭＥＳＳＡＧＥＳＰＡＲＥ　

—

ｃｈａｒ　

ｉｎｔ　

ｌ　

ＤａｔａＴｙｐｅＡ　

ＭＥＳＳＡＧＥＳＰＡＲＥ　

—

ＭＥＳＳＡＧＥ　ＳＰＡＲＥ　

Ａ　

Ｂ　ｌｎｔ　

之后我们就可以根据上述指令序列对待解析的文件进行解析读取。　

５８　软件设计开发　％　本栏目责任编辑：谢媛媛　

第１Ｏ卷第１期（２０１４年１月）　

单位Ｒ／ｓ　

ｌ３　

ｌ２　

Ｃｏｍｐｕｔｅｒ　Ｋｎｏｗｌｅｄｇｅ　ａｎｄ　Ｔｅｃｈｎｏｌｏｇｙ电脑知识与技术　

１ｔ　

ｌＯ　

９　

８　

０　

ｌ　２　３　４　５　６　７　８　９　ｉ０ｌ１ｌ２１３１４１５１６ｌ７ｌ８ｌ９２Ｏ２１２２２３２４２５２６２７２８２９３０　

客户端节点个数　

图３　ｈａｄｏｏｐ集群与普通服务器・眭能对比　

３结论　

通过对云计算基础知识、Ｈａｄｏｏｐ云计算的介绍，搭建基于Ｈａｄｏｏｐ的云平台，设计和实现了一个用于处理海量数据的校园资源　

管理平台。通过测试实验表明，Ｈａｄｏｏｐ在海量数据存储和处理上具有明显的优势和稳定性。同时，该系统平台可以部署在廉价的　

通用硬件上，可以为学校减少购买服务器等资源的昂贵开支。总之，基于Ｈａｄｏｏｐ云平台的校园资源管理，不仅可以降低硬件和软　

件开发成本，提高安全性，而且系统应用效率也会有明显提高。然而，Ｈａｄｏｏｐ集群在高并发低延时访问方面，优势并不明显，ＨＤＦＳ　

系统需要进一步的优化才能够在校园资源管理平台上充分发挥其优势，所以本文接下来的主要工作是对ＨＤＦＳ系统性能进行优　

化，比如，数据块的优化、负载均衡优化和文件下载启用多线程等使得ＨＤＦＳ系统应用更加实用和广泛。　

参考文献：　

（１】陈嘉恒．Ｈａｄｏｏｐ实战［Ｍ】．北京：机械工业出版社，２０１２．１—３５．　

【２］刘鹏．实战Ｈａｄｏｏｐ［Ｍ］．北京：电子工业出版社，２０１１．卜８３．　

［３］周敏奇，王晓玲，金澈清，等．Ｈａｄｏｏｐ权威指南［Ｍ］．北京：清华大学出版社，２０１　１．１—７３．　

［４］曹宁，吴中海，刘宏志，等．ＨＤＦＳ下载效率的优化【Ｊ］＿计算机应用，２０１０，３０（８）：２０６１—２０６５．　

［５】韩海雯，齐德昱，封斌．基于云计算的广域级视频监控综合业务平台『Ｊ１＿计算机工程与设计，２０１３，３４（５）：１６５７—１６６２．　

【６】王梅，朱信忠，赵建民，等．基于Ｈａｄｏｏｐ的海量图像检索系统　计算机技术与发展，２０１３，２３（１）：２０４－２０８．　

［７】李杰辉，张亮，陈健，等．基于Ｈａｄｏｏｐ的化合生物活性分析系统【Ｊ］．计算机工程，２０１２，３８（１３）：４８—４９．　

［８杨峰，８］吴华端，朱华吉，等．基于Ｈａｄｏｏｐ的海量农业数据资源管理平台　计算机工程，２０１　１，３７（１２）：２４２－２４５．　

［９】ＨＡＤＯＯＰ　Ｗｉ—ｋｉ［ＥＢ／ＯＬ］．［２００９—０７—０１】ｈｔｔｐ／／ｗｉｋｉ．ａｐａｃｈｅ．ｏｒｇ／ｈａｄｏｏｐ／．　

（上接第５９页）　

３．４文件数据解析流程　

生成了接口数据类型对应的文件解析指令序列后，我们可以根据文件解析指令序列对文件进行解析。顺序读取解析指令，根　

据数据类型决定调用的文件读取函数。例如：如果当前一条文件读取指令指示的数据类型为ｃｈａｒ，我们就可以调用相应的类似　

ＲｅａｄＣｈａｒ０之类的函数（由用户的变成语言确定）；如果指示的数据类型为ｆｌｏａｔ，我们就可以调用类似ＲｅａｄＦｌｏａｔ０之类的函数。流程　

如图３所示。　

４结束语　

由于大多数编程语言都对ＸＭＬ处理提供了强大的处理函数，该文介绍的利用ＸＭＬ文件映射接口数据，之后再解析数据的方　

法可以用于大部分编程语言环境。本方法使程序代码与接口定义解除耦合关系，做到了新定义接口或修改后的接口的“即插即　

用”，无需针对接口的修改对解析程序进行修改和重新编译，提高了数据解析的工作速度和正确率。　

参考文献：　

［１］甘小斌．ＸＭＬ标准体系介绍［Ｊ］＿信息技术与标准化，２００４（９）：４１—４４．　

［２】陈春咏．基Ｔ　ＸＭＬ的指挥自动化辅助决策系统研究［Ｄ】．南京：东南大学，２００７．　

［３】怀石工作室．ＸＭＬ完全手册［Ｍ］．北京：中国电力出版社，２０００．　

本栏目责任编辑：谢媛媛　软件设计开发　７１　

本文标签：数据解析进行

版权声明：本文标题：基于XML的数据解析软件设计与实现内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.roclinux.cn/b/1713573068a641398.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

Linux大棚 – 不忘初心的技术博客，浮躁时代的安静角落

基于XML的数据解析软件设计与实现

更多相关文章

告别卡顿与内存不足，一招解决清除Android上所有APP数据！

电脑性能翻倍？探究开显卡加速和启用CPU访问显存加速的重要性

一文详解：如何通过4K对齐技术优化你的SSD性能

Hex与Bin的奇妙之旅：转换技巧全揭秘

从新手到精通：Python中临时存储用'temp'

APK解析宝典：TP6上传后迅速定位应用权限包名

NRG文件编辑之旅：从基础知识到进阶技能全面梳理

全面解读NRG文件：Adobe Flash Player助力编程大法

提升电脑性能：通过删除pagefile.sys和hiberfil.sys释放C盘空间

从菜鸟到高手：用网孔电流法和无伴电流源轻松搞定电路问题！

移动硬盘不再担忧！揭秘简单加密步骤，保护个人数据

在32位与64位之间：操作系统的内存与处理器挑战

NRG文件不再难：Flash开发者指南与实战技巧

CR2文件解密：深入探究其编码机制的全面解析

玩转Windows Phone 8.1应用设置：_applicationdatacontainer_localsettings全解析

Go与Linux通信基础：strace与read操作的深入解读

Go与Linux网络通信：strace下read操作的本质解析

移动硬盘无法读取是怎么回事？解决方法看这里！_读取外置硬盘

CMOS Checksum Error常见问题解析_编程语言-问答

CMOS内存信息解析

发表评论

推荐文章

从Flash到路由器：SWF漏洞如何成为网络安全的盲区

闪念成真：用Flash创造超小型游戏机的超实用指南

老毛桃进阶攻略：深入解析如何制作WinPE镜像与U盘启动盘，让你电脑修复技能满点！

受够了几十G的PS？这款绿色精简版仅500MB，免安装即用_photoshop精简版

贴吧导航带你飞：火炬之光2地图文件解析大法

热门文章

解锁SWF的神秘面纱：Adobe Flash Player的隐藏功能揭秘

「System Volume Information」：U盘中的一道暗藏快捷方式的迷宫

Windows系统中的触摸板：实用教程帮你快速精通

【图文教你电影到电脑里】

WPS-Zotero插件使用指南：轻松实现文献管理与文档写作的无缝集成

电脑更新后无法共享打印机？这几招教你轻松解决_一键修复系统更新造成的打印机无法共享

解决Linux2.6内核CPU温度警告

MQ-2烟雾报警器原理与应用

电脑Wi-Fi连接了，手机却消失？编程语言助你解开这个谜团！

消逝的光芒中wpcap.dll消失？快速修复教程，轻松重启游戏！

最新文章

一文教会你AIX系统备份：mksysb实用指南

SWF文件备份失败？这些步骤让你轻松搞定

Win10系统备份轻松搞定：掌握captureimage命令的关键技巧

Linux系统安全小贴士：掌握备份与恢复，安心每一天

省时省心！三步完成电脑系统高效备份！

Ubuntu系统维护秘籍：备份步骤详解，保护你的劳动成果！

Linux系统不哭：高效备份与快速恢复方案

Ubuntu系统安全大计，备份技巧大公开

GHOST教程：系统备份和还原，小白也能变成高手！

Linux备份与恢复必修课：SWF文件安全策略从入门到精通

Exploring the Finest Accommodations: A Comprehensive Guide to Ruston LA Hotels

The Enchanting Experience of ScaliniTella NYC: A Culinary Gem in the Heart of Manhattan

Exploring the Exquisite Aloft Chicago O'Hare: A Blend of Modern Luxury and Convenience

A Culinary Journey: Discovering the Finest Dining Experiences in Waco, TX

A Culinary Journey: Discovering the Finest Dining Experiences in Athens, GA

电脑设备管理器在哪里？一次让我抓狂又兴奋的寻找经历

与GWX的持久战：一段关于Windows10升级弹窗的私人记忆

以管理员身份运行：那些年我们追过的权限与踩过的坑