基于Hadoop的大数据查询系统简述-Linux大棚

admin 管理员组

文章数量: 1184232

2024年3月20日发(作者：滑动式滑块块联轴器)

总第２９０期　

计算机与数字工程　

Ｖｏ１．４１　Ｎｏ．１２　

２０１３年第１２期　

Ｃｏｍｐｕｔｅｒ＆Ｄｉｇｉｔａｌ　Ｅｎｇｉｎｅｅｒｉｎｇ　

１９３９　

基于Ｈａｄｏｏｐ的大数据查询系统简述　

陈梦杰陈勇旭贾益斌张－－１１ｌ宋杰　

（东北大学软件学院沈阳１１０８１９）　

摘要近年来，随着计算机技术的迅猛发展，其领域迎来了大数据时代。随着大数据的出现，传统的关系型数据库已经不能满足高储　

存量的要求，此时成本低廉、有着良好并行性和伸缩性的云数据库应运而生，它采用键值对数据模型和分布式的计算环境。但是海量数据在　

Ｋｅｙ－ｖａｌｕｅ数据库中的查询效率低下、实时性差等问题又普遍存在。为了解决查询效率低下这一问题，将多维数据模型和索引技术应用于　

Ｋｅｙ－ｖａｌｕｅ数据库，将事实数据以多维的形式进行存储并在多维模型上建立索引以加快查询速度。论文将系统地描述多维数据模型的建立　

和索引技术的实现，最后简单地和主流Ｋｅｙ－ｖａｌｕｅ数据库进行优缺点对比。　

关键词　大数据；Ｋｅｙ－ｖａｌｕｅ数据库；多维模型；Ｚ－ｏｒｄｅｒｉｎｇ；Ｋ—ｄ　ｔｒｅｅ　

中图分类号ＴＰ３９１　ＤＯＩ：１０．３９６９／ｊ．ｉｓｓｎ１６７２—９７２２．２０１３．１２．０２１　

Ａ　Ｂｒｉｅｆ　Ｉｎｔｒｏｄｕｃｔｉｏｎ　Ｈａｄｏｏｐ—ｂａｓｅｄ　Ｂｉｇ　Ｄａｔａ　Ｑｕｅｒｙ　Ｓｙｓｔｅｍ　

ＣＨＥＮ　Ｍｅｎｇｊｉｅ　ＣＨＥＮ　Ｙｏｎｇｘｕ　ＺＨＡＮＧ　Ｙｉｃｈｕａｎ　ＳＯＮＧ　Ｊｉｅ　

（Ｓｏｆｔｗａｒｅ　Ｃｏｌｌｅｇｅ，Ｎｏｒｔｈｅａｓｔｅｒｎ　Ｕｎｉｖｅｒｓｉｔｙ，Ｓｈｅｎｙａｎｇ　１１０００４）　

Ａｂｓｔｒａｃｔ　Ｉｎ　ｒｅｃｅｎｔ　ｙｅａｒｓ，ｗｉｔｈ　ｔｈｅ　ｒａｐｉｄ　ｄｅｖｅｌｏｐｍｅｎｔ　ｏｆ　ｃｏｍｐｕｔｅｒ　ｔｅｃｈｎｏｌｏｇｙ，ｉｔｓ　ａｒｅａ　ｕｓｈｅｒｓ　ｉｎ　ｔｈｅ　ｅｒａ　ｏｆ　ｂｉｇ　ｄａｔａ．Ｗｉｔｈ　ｔｈｅ　ｅｍｅｒ—　

ｇｅｎｃｅ　ｏｆ　ｂｉｇ　ｄａｔａ，ｔｈｅ　ｔｒａｄｉｔｉｏｎａｌ　ｒｅｌａｔｉｏｎａｌ　ｄａｔａｂａｓｅ　ｃｏｎｎｏｔ　ｍｅｅｔ　ｔｈｅ　ｎｅｅｄｓ　ｏｆ　ｈｉｇｈ　ｓｔｏｒａｇｅ　ｃａｐａｃｉｔｙ　ｗｈｅｎ　ｔｈｅ　１ＯＷ　ｃｏｓｔ　ｃｌｏｕｄ　ｄａｔａｂａｓｅ　ｗｉｔｈ　

ｇｏｏｄ　ｐａｒａｌｌｅｌｉｓｍ　ａｎｄ　ｓｃａｌａｂｉｌｉｔｙ　ｃｏｍｅｓ　ｉｎｔｏ　ｂｅｉｎｇ　ａｔ　ｔｈｅ　ｈｉｓｔｏｒｉｃ　ｍｏｍｅｎｔ．Ｉｔ　ｕｓｅｓ　ａ　Ｋｅｙ－ｖａｌｕｅ　ｄａｔａ　ｍｏｄｅｌ　ａｎｄ　ｔｈｅ　ｄｉｓｔｒｉｂｕｔｅｄ　ｃｏｍｐｕｔｉｎｇ　ｅｎｖｉ—　

ｒｏｎｍｅｎｔ．Ｂｕｔ　ｔｈｅ　ｐｒｏｂｌｅｍ　ｔｈａｔ　ｑｕｅｒｙ　ｏｆ　ｈｕｇｅ　ａｍｏｕｎｔｓ　ｏｆ　ｄａｔａ　ｉｎ　ｔｈｅ　Ｋｅｙ－ｖａｌｕｅ　ｄａｔａｂａｓｅ　ｌａｃｋｓ　ｅｆｆｉｃｉｅｎｃｙ　ａｎｄ　ｈａｓ　ｂａｄ　ｒｅａｌ—ｔｉｍｅ　ｐｅｒｆｏｒｍａｎｃｅ　ｉｓ　

ｕｎｉｖｅｒｓａ１．Ｔｏ　ｓｏｌｖｅ　１ＯＷ　ｅｆｆｉｃｉｅｎｃｙ　ｉｎ　ｑｕｅｒｙ，ｔｈｉｓ　ｓｙｓｔｅｍ　ａｐｐｌｉｅｓ　ｍｕｌｔｉｄｉｍｅｎｓｉｏｎａｌ　ｄａｔａ　ｍｏｄｅ１　ａｎｄ　ｔｈｅ　ｉｎｄｅｘｉｎｇ　ｔｅｃｈｎｏｌｏｇｙ　ｔｏ　ｔｈｅ　Ｋｅｙ－ｖａｌｕｅ　ｄａ—　

ｔａｂａｓｅ．ｓｔｏｒｉｎｇ　ｆａｃｔ　ｄａｔａ　ｉｎ　ｆｏｒｍｓ　ｏｆ　ｍｕｌｔｉｄｉｍｅｎｓｉｏｎａｌ　ｄａｔａ　ａｎｄ　ｉｎｄｅｘｉｎｇ　ｏｎ　ｔｈｅ　ｍｕｌｔｉｄｉｍｅｎｓｉｏｎａｌ　ｍｏｄｅｌ　ｉｎ　ｏｒｄｅｒ　ｔｏ　ｓｐｅｅｄ　ｕｐ　ｔｈｅ　ｑｕｅｒｙ．Ｔｈｅ　

ｅｓｔａｂｌｉｓｈｍｅｎｔ　ｏｆ　ｍｕｌｔｉｄｉｍｅｎｓｉｏｎａｌ　ｄａｔａ　ｍｏｄｅ１　ａｎｄ　ｔｈｅ　ｉｍｐｌｅｍｅｎｔａｔｉｏｎ　ｏｆ　ｉｎｄｅｍｎｇ　ｔｅｃｈｎｏｌｏｇｙ　ｉｓ　ｓｙｓｔｅｍａｔｉｃａｌｌｙ　ｄｅｓｃｒｉｂｅｄ．Ｆｉｎａｌｌｙ　ｔｈｅ　ｔｈｅｓｉｓ　

ｂｒｉｅｆｌｙ　ｃｏｍｐａｒｅｓ　ｉｔ　ｔＯ　ｔｈｅ　ｍａｉｎｓｔｒｅａｍ　Ｋｅｙ－ｖａｌｕｅ　ｄａｔａｂａｓｅ　ｉｎ　ｔｅｒｍｓ　ｏｆ　ａｄｖａｎｔａｇｅｓ　ａｎｄ　ｄｉｓａｄｖａｎｔａｇｅｓ．　

Ｋｏｙ　Ｗｏｒｄｓ　ｂｉｇ　ｄａｔａ，Ｋｅｙ－ｖａｌｕｅ　ｄａｔａｂａｓｅ，ｍｕｌｔｉｄｉｍｅｎｓｉｏｎａｌ　ｄａｔａ　ｍｏｄｅｌ，Ｚ－ｏｒｄｅｒｉｎｇ，Ｋ—ｄ　ｔｒｅｅ　

ＣＩａｓｓ　Ｎｕｍｌ￣ｒ　ＴＰ３９】　

１引言　２系统架构　

随着计算机技术的发展及其在互联网、传感器和科学　系统架构重点描述本系统数据装载和数据查询的过程。　

数据分析等领域的广泛应用，数据量爆炸性地增长＿１］。大　

如图１所示，首先通过数据装载工具将数据导入系统　

数据时代的到来促使云数据库技术得到飞速的发展ｌ２］。为　的Ｈａｄｏｏｐ集群［４］，同时管理节点抽取数据的维信息并导　

了存储海量数据，各大数据库厂商都相继推出了其云数据　人维元数据服务器进行存储。数据装载完成以后客户端可　

库产品。经研究调查，目前业界普遍认同云数据库具有高　以向管理节点发送查询条件，管理节点解析条件并将其传　

可扩展性、高可用性、采用多租形式和支持资源有效分发等　人维元数据服务器，维元数据服务器查询被传人条件对应　

特点［３］，与此同时海量数据查询效率方面的优点鲜有提及。　

的维编码并将其返回给管理节点，管理节点将各个维编码　

事实上，当数据量到达ＴＢ乃至ＰＢ级时，现有云数据库的　

通过索引技术处理得到索引值或者索引范围。索引通过管　

查询效率普遍低下，多条件复杂查询效率问题尤为突出。　理索引的树结构查询得到其对应事实数据所在的文件地址　

本课题为了解决海量数据查询效率低下这一问题，以事实　或者文件地址范围，此时管理节点将文件地址和操作指令　

数据的属性为基础建立多维数据模型并在此模型上应用索　作为作业参数发送给底层文件系统（Ｈａｄｏｏｐ集群），Ｈａ—　

引技术来加快查询速度。　

ｄｏｏｐ集群执行作业并给客户端返回查询结果。　

收稿日期：２０１３年６月２５日，修回日期：２０１３年８月１日　

作者简介：陈梦杰，男，硕士研究生，研究方向：海量数据计算。陈勇旭，男，硕士研究生，研究方向：海量数据计算。贾益斌，男，硕士研　

究生，研究方向：海量数据计算。张一川，男，博士，讲师，研究方向：云计算。宋杰，男，博士，副教授，硕士生导师，研究方向：海量数据　

计算与高能效计算。　

１９４０　陈梦杰等：基于Ｈａｄｏｏｐ的大数据查询系统简述　第４１卷　

原始数据　

一　《　一，．．．．．．．．．．．　

１　ｌ　

数据源　

维　

指令传入…一　

数据传入一　

Ｈａｄｏｃ，ｐ集群　

图１系统架构　

３维模型　

上述系统架构中已提及维的相关内容，本节将对维的　

定义和维编码进行详细的描述。　

３．１维定义　

表１按行存储与按列存储优缺点对比　

按行存储　按列存储　

优点快速数据加载和动态负载的高查询时能够避免读不必要　

适应能力（因为行存储保证了相的列，并且压缩一个列中　

同记录的所有域在同一个的相似数据能够达到较高　

ＨＤＦＳ块）　的压缩比　

缺点１）不能支持快速查询处理（因不能提供基于Ｈａｄｏｏｐ系　

为当查询仅仅针对多列表中的统的快速查询处理（列存　

少数几列时，它不能跳过不必要储不能保证同一记录的所　

的列读取）；　有域都存储在同一集群节　

２）空间利用率不易大幅提高点而导致元组重构的较高　

（因为混合着不同数据值的列）开销）　

目前，Ｋｅｙ－ｖａｌｕｅ数据库采用Ｋｅｙ－ｖａｌｕｅ存储模型对数　

据进行存储，该模型是一种稀疏的、分布式的、持久化的多　

维有序映射表（Ｍａｐ），其特点是简单而灵活。对于Ｋｅｙ－ｖａｌ—　

ｕｅ存储模型，目前普遍应用的有两种存储方式，即按行存储　

和按列存储。两者各有优点，但是在海量数据复杂查询面　

前都显得力不从心。本文总结了两者不同，表１对比列出　

两种存储方式的优缺点。　

由表１可以看出，无论按行存储或者按列存储，Ｋｅｙ－　

ｖａｌｕｅ存储模型都在查询处理时显示了弊端。为了解决　

Ｋｅｙ－ｖａｌｕｅ数据的查询效率低下这一问题，本文提出了利用　

多维存储模型来存储和查找数据。因为对于多维存储模　

型，行和列均作为维信息处理，它们的地位是完全等价的，　

所以不会存在按行查询和按列查询之间出现速度或者效率　

差异的情况。　

定义１维（Ｄｉｍｅｎｓｉｏｎ）：集合Ｄ来表示多维数据立方　

体的维集。任取　（１　ｉ－＜　），则必有且只有一个维ｄ　（　

∈Ｄ）与之对应，即　～　。　

定义２维层次：维是有层次的，层次的集合及集合内　

层次间的关系构成一个维。设维ｄ　（　∈Ｄ，集合Ｄ来表示　

多维数据立方体的维集）有ｍｄ／个层次，则ｄ的层次集可以　

用下式来表示＿５Ｊ：　

△（　）一｛ｚ，　ｌ１－＜　！　ｍ　）｝　（１）　

式（１）中，△为维ｄ　的分层算法，￡，　（１　ｍｄｉ）表示维ｄ　

的一个层次。维层次满足：　

・

Ａ（ｄ　）是一个维层次有限集合；　

・

Ａ（ｄ　）中维层次组成为概念层次结构；　

・

ｄｉ（ｄ　）上存在存在一个偏序关系＜　，若Ｖ　，　∈△　

（　），　．＜＜　ｚ　表示在概念层次中Ｚ。位于ｚ　的下层；　

针对Ｋｅｙ－ｖａｌｕｅ数据的特征，本系统将维分为三类，分　

别是列名维、版本维和分区维。其中列名表示事实数据的　

名称，如人人网状态的内容；Ｋｅｙ－ｖａｌｕｅ数据拥有多个版本，　

版本维用来管理事实数据的版本信息，如某个网页每更改　

一

次内容增加一个版本；分区维数据表示频繁用于查询事　

实数据的查询条件数据，如涉及到天气情况的查询，地点和　

时间即为分区维数据。三种维的确立是构建多维模型的前　

提，以下内容是维模型的系统介绍。　

列名维的设计关键是实现列簇ｌ６］，从Ｋｅｙ－ｖａｌｕｅ数据模　

型的研究中发现，Ｋｅｙ－ｖａｌｕｅ数据库中列的数量相当大，并　

且不少Ｋｅｙ－ｖａｌｕｅ数据库支持列簇，包括多级列簇。本系统　

中规定：每列列名各自作为一个列簇，定义为０级列簇；不　

同０级列簇对应的数据被同时查询的概率不同，若干０级　

列簇对应的数据被同时查询的概率大于某个值（可根据具　

体应用设定，经常为经验值），则这些０级列簇被包含于某　

一

１级列簇；以此类推，最高级列簇包含所有列名。多种类　

型的事实数据被一起用到的概率大于某个阈值而将其放置　

于同一列簇。　

同一条Ｋｅｙ－ｖａｌｕｅ数据存在多个版本Ｅ　：原始数据存在　

若干版本，同时某个版本的数据又存在若干版本。为了便　

于版本维的维护，本系统规定：原始数据为０级版本，更新　

原始数据而产生数据的不同版本为１级版本，更新某１级　

版本的数据而产生的不同版本为２级版本；以此类推，最高　

级版本的数据为最新更新的数据。此外，本系统规定每条　

数据的版本的最大个数和原始数据以下不同版本级别的最　

大个数。　

分区维由查询数据的常用查询条件属性组成，常见的　

分区属性有时间、地点等。分区维的实现，关键在于维层次　

的设计，而该维的分层通常有如下两种情况：一种是分区属　

性本身拥有良好的分层结构，根据实际意义进行分层即可；　

另一种是分区属性本身无层次结构，需要人为地将其设计　

成有层次结构，之后再进行分层。　

３．２维编码　

维层次设计完成以后，本系统将解决维编码问题。结　

合以下索引技术，本文将维编码按如下规则设计：第一步，　

确定三个维各自最细粒度的数据量最多存在多少，分别记　

为ＭＣｏｌｕｍｎ、ＭＶｅｒｓｉｏｎ和ＭＰａｒｔｉｔｉｏｎ；第二步，选择最大的　

数并计算出能够完全表示此数据量的数据需要多少位二进　

制数，记为ＢｉｔＮｕｍ；第三步，确定每个维所需二进制位数为　

ＢｉｔＮｕｍ，并为每个维值设置对应的二进制编码。其中第二　

步目的是为了使本系统的多维模型各个维长度保持一致，　

在此基础上才得以成功在多维模型上应用Ｚ－ｏｒｄｅｒｉｎｇ索引　

２０１３年第１２期　计算机与数字工程　１９４１　

技术　并用Ｋ－ｄ　ｔｒｅｅＥ。　管理索引（详见下一节介绍）。选择　

最大的二进制位数会导致另外两维若干高位不被使用，本　

系统采取的措施是未被使用的高位用０补上。另外在编码　

过程中，维的叶子节点对应的编码是完整的二进制数，非叶　

子节点的编码采取以下措施：根节点低位全为“＊”，“＊”的　

个数分别为ＭＣｏｌｕｍｎ、ＭＶｅｒｓｉｏｎ和ＭＰａｒｔｉｔｉｏｎ，其中两维　

高位补０；根节点孩子的编码用０、１取代适当位数的高位　

“＊”

，

如根节点拥有４个孩子，其孩子节点编码是用ＯＯ、Ｏ１、　

１Ｏ和１１取代根节点最高位的两位“＊”、其余保持一致而　

产生的，依次类推完成维属性的所有编码。　

现假设本系统所面向的一个应用拥有２００个列，分区　

属性值数量为５００，原始数据以下最多不超过３级版本，每　

条数据最多不超过４个版本。　

第一步：确定ＭＣｏｌｕｍｎ一２００，ＭＶｅｒｓｉｏｎ一４。一２。，　

ＭＰａｒｔｉｔｉｏｎ＝５００；　

第二步：确定最大数为５００，需要９位二进制数才能够　

完全表示此数据量的数据，ＢｉｔＮｕｍ＝９；　

第三步：每个维所需二进制位数为ＢｉｔＮｕｍ＝９，按图２　

进行编码。　

列名维：　

最高列簇……～　｛０　・¨｝・｝　｝　

／／ｒ＼＼　

・｛。。。　’）　！

，

ｌ、、　

’｛。　。　）　

０级列簇……一｛００１００００００　‘’｛００１１１１１１１）　

版本维：　

。级版本…一：：：：，—　７　　，—　～　

！｛０００００’’　）｛００００１　｝｛０００１０　｝｛０００１１　｝　

：　

．　．

／一，ｒ、、　．　．　．　．　

３级版本…一｛００００１００００｝．．・｛００００１１１１１）　

分区维：　

最粗粒度……一　｛””””）　

—　

；｛０００９９　）｛００１　’’　）｛１ｌ０　｝｛１１１　’　｝　

：　

／　～　

．　．．　．　．　．　

最细粒度…一｛００１００００００｝＿．・｛ｏｏ１１１１１１１｝　

图２维编码方式　

如图２所示，高位的黑色数字为该维的补充位，编码过　

程中始终保持不变。根节点除补充位以外均为“＊”，从根　

节点到叶子节点的编码是一个不断用０、１取代高位“＊”的　

过程。　

４查询算法的设计　

本系统的查询算法基于Ｚ－ｏｒｄｅｒｉｎｇ索引技术，数据查　

询包括点查询和范围查询。　

Ｚ－ｏｒｄｅｒｉｎｇ技术是把维成员信息的二进制编码进行位　

交叉，生成一个合成的二进制字符串，称之为Ｚ－ａｄｄｒｅｓｓ或　

者Ｚ－ｖａｌｕｅ，作为多维模型中事实数据的索引。本文将用Ｋ＿　

ｄ　ｔｒｅｅ来存储管理Ｚ－ｖａｌｕｅ，每当用户添加一条数据，其索引　

将插入Ｋ－ｄ　ｔｒｅｅ中的某一叶子节点。Ｋ－ｄ　ｔｒｅｅ的叶子节点　

与底层文件系统的桶一一对应，其中叶子节点名称与桶号　

一

致。当某一叶子节点所包含的的索引数超过某一阈值，　

此节点将拆分成两个子节点并将原节点中存储的所有索引　

按照特定规则移动到两个子节点。底层文件中事实数据作　

相应的移动。　

４．１点查询　

首先将查询条件通过维数据库中的映射关系转化成对　

应的维编码，接着将维编码通过Ｚ－ｏｒｄｅｒｉｎｇ技术处理转化　

成Ｚ－ｖａｌｕｅ，即事实数据的索引，然后通过Ｋ－ｄ　ｔｒｅｅ查询索引　

所在的叶子节点，叶子节点与底层文件有映射关系，通过此　

映射关系得到要查询数据所在的文件，扫描文件得到所要　

的事实数据。　

４．２范围查询　

使用Ｚ－ｏｒｄｅｒｉｎｇ技术的其中一个优点是属性相似的事　

实数据的索引值大小相近，而用Ｋ－ｄ　ｔｒｅｅ管理Ｚ－ｖａｌｕｅ能保　

证绝大部分相邻的两个索引值在同一叶子节点，极少数情　

况下存在于两个叶子节点。范围查询往往是针对属性相似　

的事实数据，这保证了某一范围的数据所对应的索引集中　

在少数几个叶子节点，而不是离散的较多叶子节点。因此，　

本系统中的范围查询只需确定查询范围中索引的最小值和　

最大值，在此范围的索引所在的叶子节点均为扫描对象。　

５事实数据存储　

查询条件通过维编码映射和Ｚ－ｏｒｄｅｒｉｎｇ索引技术处理　

后得到Ｚ－ｖａｌｕｅ，Ｚ－ｖａｌｕｅ通过Ｋ－ｄ　ｔｒｅｅ查找其所在的叶子节　

点，通过叶子节点与底层文件的映射关系定位具体的文件，　

通过扫描文件得到具体准确的事实数据。上述查询过程的　

介绍说明本系统从索引层传人底层文件系统的数据只有查　

询命令和一个通过解析查询条件并计算得到的Ｚ－ｖａｌｕｅ，因　

此要求本系统底层文件中存储部分必须包括事实数据的　

ｖａｌｕｅ。本系统采用ｋｅｙ－ｖａｌｕｅ的形式存储事实数据，其中　

ｋｅｙ为事实数据的Ｚ－ｖａｌｕｅ，ｖａｌｕｅ即事实数据本身。　

器　

图３桶与数据立方的对应关系及命名规则　

蓦　

从上面介绍索引技术部分可以得知，查询条件通过索　

引层得到对应的桶号［１ｏ］后，根据对应桶维护的信息去查找　

相应的数据立方（Ｃｕｂｅ）。桶（Ｂｕｃｋｅｔ）是存在于索引层与存　

储层之间是抽象概念，桶内维护多个数据立方的元数据。　

数据立方是以ＨＤＦＳ所支持的分布式文件的形式存储在物　

理层的。桶到数据立方的映射是一对多的，可以根据应用　

需求规定一个桶对应若干个数据立方，其命名方式如图３　

所示，桶内所有数据立方的名称都在桶的子空间名称所覆　

盖的范围内。假如桶号为（１１＊＊＊＊）并且每个桶对应４　

个数据立方，那么（１１００＊＊）～（１１１１＊＊）范围内的数据　

立方的元数据都会维护在这个桶内。如此设计的方案可以　

保证存储于Ｃｕｂｅ（１ｌ００＊＊）中的事实数据所对应的Ｚ－ｖａｌｕｅ　

前四位肯定是１１００。其优点在于当桶数据量超过最大值　

需要切分时，数据移动是以Ｃｕｂｅ为单位，相对于一条一条　

移动数据，这种方式大大提高了效率。　

６结语　

随着大数据时代的来临，传统关系数据库的拓展性和　

１９４２　陈梦杰等：基于Ｈａｄｏｏｐ的大数据查询系统简述　

ｗａｒｅｈｏｕｓｅ　ｓｙｓｔｅｍｓ．ＩＣＤＥ，２０１１：１１９９—１２０８．　

第４１卷　

查询效率都遇到瓶颈。此时基于海量数据的Ｋｅｙ－ｖａｌｕｅ数　

据库横空出世，其具有高可用性、容错性、拓展性等特点，但　

同时也暴露出查询的实时陛差，难以支持复杂查询等弊端。　

本文提出一种基于海量数据的多维数据模型Ｋｅｙ－ｖａｌｕｅ数　

［４］Ｄｈｒｕｂａ　Ｂｏｒｔｈａｋｕｒ．Ｔｈｅ　Ｈａｄｏｏｐ　Ｄｉｓｔｒｉｂｕｔｅｄ　Ｆｉｌｅ　Ｓｙｓｔｅｍ［Ｊ］．　

Ａｒｃｈｉｔｅｃｔｕｒｅ　ａｎｄ　Ｄｅｓｉｇｎ．　

［５］宋杰，侯泓颖，李丹程．ＭＱＭ：一种用于Ｗｅｂ服务查找的多维　

ＱｏＳ模型［Ｊ］．小型微型计算机系统，２０１１（３）：１０００—１２２０．　

Ｓ０ＮＧ　Ｊｉｅ，Ｈ０Ｕ　Ｈｏｎｇｙｉｎ，ＬＩ　Ｄａｎｃｈｅｎｇ．ＭＱＭ：Ａ　Ｍｕｌｔｉ　ｄｉ—　

据查询系统，并使用分布式内存进一步优化系统的性能，有　

效提高查询命中率和查询实时性。目前本系统的开发已基　

本完成，处于代码整合阶段，接下来将会完成测试和分析的　

工作，并将在实验结果的分析中对本系统的算法设计进行　

改进。同时，在今后的工作中对底层的文件系统进行优化，　

来提高每个桶在集群中的负载平衡提升作业的平行性，进　

一

ｍｅｎｓｉｏｎａｌ　ＱｏＳ　Ｍｏｄｅｌ　ｆｏｒ　Ｎａｖｉｇａｔｉｎｇ　Ｗｅｂ　Ｓｅｒｖｉｃｅｓ［Ｊ］．Ｊｏｕｒｎａｌ　

ｏｆ　Ｃｈｉｎｅｓｅ　Ｃｏｍｐｕｔｅｒ　Ｓｙｓｔｅｍｓ，２０１１（３）：１０００—１２２０．　

『６　Ｉ　Ａｐａｃｈｅ　ＨＢａｓｅ，ａ　ｄｉｓｔｒｉｂｕｔｅｄ，ｖｅｒｓｉｏｎｅｄ，ｃｏｌｕｍｎ—ｏｒｉｅｎｔｅｄ　ｄａ—　

ｔａｂａｓｅ　ｂｕｉｌｔ　ｏｎ　ｔｏｐ　ｏｆ　Ａｐａｃｈｅ　Ｈａｄｏｏｐ　ａｎｄ　Ａｐａｃｈｅ　ＺｏｏＫｅｅｐｅｒ．　

Ｃｈａｐｔｅｒ　５．５．　

步提高查询效率。　

参考文献　

［７］Ｆａｙ　Ｃｈａｎｇ，Ｊｅｆｆｒｅｙ　Ｄｅａｎ，Ｓａｎｊａｙ　Ｇｈｅｍａｗａｔ，Ｂｉｇｔａｂｌｅ：Ａ　Ｄｉｓ—　

ｔｒｉｂｕｔｅｄ　Ｓｔｏｒａｇｅ　Ｓｙｓｔｅｍ　ｆｏｒ　Ｓｔｒｕｃｔｕｒｅｄ　ＤａｔａＥＪ］．ＡＣＭ　Ｔｒａｎｓ．　

ｏｍｐｕｔＣ．Ｓｙｓｔ．（ＴＯＣＳ），２００８，２６（２）．　

［１］李奕．计算革命与数据价值［Ｊ］．中国计算机报，２０１２（１０）．　

ＬＩ　Ｙｉ．Ｃｏｍｐｕｔｉｎｇ　ｒｅｖｏｌｕｔｉｏｎ　ａｎｄ　ｔｈｅ　ｖａｌｕｅ　ｏｆ　ｄａｔａ［Ｊ］．Ｃｈｉｎａ　

Ｉｎｆｏｒｍａｔｉｏｎ　Ｗｏｒｌｄ，２０１２，１０．　

［８］Ｆｏｌｅｙ，Ｊａｍｅｓ，Ａｎｄｒｉｅｓ　ｖａｎ　Ｄａｍ，Ｓｔｅｖｅｎ　Ｆｅｉｎｅｒ，Ｊｏｈｎ　

Ｈｕｇｈｅｓ．Ｃｏｍｐｕｔｅｒ　Ｇｒａｐｈｉｃｓ：Ｐｒｉｎｃｉｐｌｅ　ａｎｄ　Ｐｒａｃｔｉｃｅ．Ｍａｓｓａ—　

ｃｈｕｓｅｔｔｓ：Ａｄｄｉｓｏｎ－Ｗｅｓｌｅｙ　Ｐｕｂｌｉｓｈｉｎｇ　Ｃｏｍｐａｎｙ，１９８７：８７０—８７１．　

［２］王海波．云计算中数据库的关键问题研究与实现［Ｄ］．长春：吉　

林大学，２０１１，８．　

ＷＡＮＧ　Ｈａｉｂｏ．Ｋｅｙ　Ｉｓｓｕｅ　Ｒｅｓｅａｒｃｈ　ａｎｄ　Ｉｍｐｌｅｍｅｎｔａｔｉｏｎ　ｏｎ　Ｄａ　

［９３　Ａｎｄｒｅｗ　Ｗ．Ｍｏｏｒｅ．Ａｎ　ｉｎｔｒｏｄｕｃｔｏｒｙ　ｔｕｔｏｒｉａｌ　ｏｎ　ｋｄ—ｔｒｅｅｓ．　

ｏｍｐｕｔｅｒ　Ｌａｂｏｒａｔｏｒｙ［Ｄ］．Ｌｏｎｄｏｎ：ＵｎｉＣｖｅｒｓｉｔｙ　ｏｆ　Ｃａｍｂｒｉｄｇｅ，　

１９９１．　

ｔａｂａｓｅ　ｆｏｒ　Ｃｌｏｕｄ　Ｃｏｍｐｕｔｅｒ［ＤＪ．Ｃｈａｎｇｃｈｕｎ：Ｊｉｌｉｎ　Ｕｎｉｖｅｒｓｉｔｙ，　

２Ｏ１１，８．　

［１ｏ］Ｓｈｏｊｉ　Ｎｉｓｈｉｍｕｒａ，Ｓｕｄｉｐｔｏ　Ｄａｓ，Ｄｉｖｙａｋａｎｔ　Ａｇｒａｗａｌ，ｅｔ　ａ１．　

Ｍ【）ＩＨＢａｓｅ：Ａ　Ｓｃａｌａｂｌｅ　Ｍｕｌｔｉ　ｄｉｍｅｎｓｉｏｎａｌ　Ｄａｔａ　Ｉｎｆｒａｓｔｒｕｃ—　

［３］Ｙｏｎｇｑｉａｎｇ　Ｈｅ，Ｒｕｂａｏ　Ｌｅｅ，Ｙｉｎ　Ｈｕａｉ．ＲＣＦｉｌｅ：Ａ　ｆａｓｔ　ａｎｄ　

ｓｐａｃｅ－ｅｆｆｉｃｉｅｎｔ　ｄａｔａ　ｐｌａｃｅｍｅｎｔ　ｓｔｒｕｃｔｕｒｅ　ｉｎ　ＭａｐＲｅｄｕｃｅ－ｂａｓｅｄ　

ｔｕｒｅ　ｆｏｒ　Ｌｏｃａｔｉｏｎ　Ａｗａｒｅ　Ｓｅｒｖｉｃｅｓ　ｒ　Ｃ］／／ＩＥＥＥ　Ｉｎｔｅｍａｔｉｏｎａｌ　

Ｃｏｎｆｅｒｅｎｃｅ　ｏｎ　Ｍｏｂｉｌｅ　Ｄａｔａ　Ｍａｎａｇｅｍｅｎｔ，２０１　１（１２）．　

！矫｛！锛　！铒　　矫　不　矫　筇　！铞　不　乔　！，　！铒｛’　希　乖　芥　乖　斧　毋　芥　乖　带　芥　希　带　矫　不　芥　尔　芥　筇　茚　绵　

（上接第１９ｌｌ页）　

ＺＨＡＮＧ　Ｊｉｎｈｕａｉ，ＺＨＡＮＧ　Ｓｈｉｆｅｎｇ．Ｐｒｏｂｌｅｍ　ｏｆ　Ｌａｒｇｅ　Ｎｕｍ—　

ｂｅｒｓ　ｏｆ　Ｐｒｉｏｒ　Ｉｎｆｏｒｍａｔｉｏｎ　Ｏｂｌｉｔｅｒａｔｉｎｇ　ｔｈｅ　Ｓｍａｌｌ　Ｎｕｍｂｅｒｓ　ｏｆ　

２００ｌ：１－３．　

［７］冯蕴雯，黄玮，吕震宙，等．极小子样试验的半经验评估方法　

［Ｊ］．航空学报，２００４，２５（９）：４５６　４５９．　

ＦＥＮＧ　Ｙｕｎｗｅｎ，ＨＵＡＮＧ　Ｗｅｉ，ＬＶ　Ｚｈｅｎｚｈｏｕ，ｅｔ　ａ１．Ｔｈｅ　

Ｔｅｓｔ　Ｉｎｆｏｒｍａｔｉｏｎ［Ｊ］．Ｊｏｕｒｎａｌ　ｏｆ　Ｓｐａｃｅｃｒａｆｔ　ＴＴ＆Ｃ　Ｔｅｃｈｎｏｌｏ　

ｇｙ，２００３，２２（１）：１　５．　

［３］邓海军，查亚兵．Ｂａｙｅｓ小子样鉴定中仿真可信度研究ＬＪ］．系统　

仿真学报，２００５，１７（７）：１５６６—１５６８．　

ＤＥＮＧ　Ｈａｉｊｕｎ，ＺＨＡ　Ｙａｂｉｎｇ．Ｒｅｓｅａｒｃｈ　ｏｎ　Ａｐｐｌｙｉｎｇ　Ｓｉｍｕｌａ—　

Ｓｅｍｉｅｍｐｉｒｉｃａｌ　Ｅｖａｌｕａｔｉｏｎ　Ｍｅｔｈｏｄ　ｆｏｒ　Ｅｘｔｒｅｍｅ　Ｓｍａｌ１　Ｓａｍｐｌｅ　

Ｔｅｓｔ［Ｊ］．Ａｃｔａ　Ａｅｒｏｎａｕｔｉｃａ　Ｅｔ　Ａｓｔｒｏｎａｕｔｉｃａ　Ｓｉｎｉｃａ，２００４，２５　

（９）：４５６—４５９．　

ｔｉｏｎ　Ｃｒｅｄｉｂｉｌｉｔｙ　ｉｎｔｏ　Ｗｅａｐｏｎ　Ｓｙｓｔｅｍ　Ａｐｐｒａｉｓａｌ［Ｊ］．Ｊｏｕｒｎａｌ　ｏｆ　

Ｓｙｓｔｅｍ　Ｓｉｍｕｌａｔｉｏｎ，２００５，１７（７）：１５６６—１５６８．　

［８］李鹏波，谢红卫，张金槐．考虑验前信息可信度时的Ｂａｙｅｓ估计　

＿ｌＪ］．国防科技大学学报，２００３，２５（４）：１０７—１１０．　

ＬＩ　Ｐｅｎｇｂｏ，ＸＩＥ　Ｈｏｎｇｗｅｉ．ＺＨＡＮＧ　Ｊｉｎｈｕａｉ．Ｂａｙｅｓｉａｎ　Ｅｓｔｉｍａ—　

ｔｉｏｎ　Ｗ　ｈｉｌｅ　Ｃｏｎｓｉｄｅｒｉｎｇ　ｔｈｅ　Ｃｒｅｄｉｂｉｌｉｔｙ　ｏｆ　ｔｈｅ　Ｐｒｉｏｒ　Ｉｎｆｏｒｍａｔｉｏｎ　

［４］李庆民，刘君，张志华．武器系统仿真模型的可信性验证方法研　

究ｒＪ］．系统仿真学报，２００６，１８（１２）：３３８０—３３８２．　

ＬＩ　Ｑｉｎｇｍｉｎ．ＬＩＵ　Ｊｕｎ．ＺＨＡＮＧ　Ｚｈｉｈｕａ．Ｏｎ　Ｍｅｔｈｏｄ　ｏｆ　Ｃｒｅｄｉ—　

［Ｊ］．Ｊｏｕｒｎａｌ　ｏｆ　Ｎａｔｉｏｎａｌ　Ｕｎｉｖｅｒｓｉｔｙ　ｏｆ　Ｄｅｆｅｎｓｅ　Ｔｅｃｈｎｏｌｏｇｙ，　

２００３，２５（４）：１０７一儿Ｏ．　

ｂｉｌｉｔｙ　Ｅｓｔｉｍａｔｉｏｎ　ｏｆ　Ｗｅａｐｏｎ　Ｓｙｓｔｅｍ　Ｓｉｍｕｌａｔｉｏｎ　Ｍｏｄｅｌ［Ｊ］．　

Ｊｏｕｒｎａｌ　ｏｆ　Ｓｙｓｔｅｍ　Ｓｉｍｕｌａｔｉｏｎ，２００６，１８（１２）：３３８０　３３８２．　

［９］张湘平，张金槐，谢红卫．关于样本容量、验前信息与Ｂａｙｅｓ决　

策风险的若干讨论Ｉｊ］．电子学报，２００３，３１（４）：５３６—５３８．　

ＺＨＡＮＧ　Ｘｉａｎｇｐｉｎｇ，ＺＨＡＮＧ　Ｊｉｎｈｕａｉ，ＸＩＥ　Ｈｏｎｇｗｅｉ．Ａ　Ｆｅｗ　

Ｄｉｓｃｕｓｓｉｏｎ　ｏｆ　Ｓａｍｐｌｅｓ，Ａ　Ｐｒｉｏｒ　Ｉｎｆｏｒｍａｔｉｏｎ　ａｎｄ　Ｂａｙｅｓｉａｎ　Ｓｔａ　

［５］张金槐，刘琦，冯静．Ｂａｙｅｓ试验分析方法［Ｄ］．长沙：国防科技　

大学，２００７：１６—４７．　

ＺＨＡＮＧ　Ｊｉｎｈｕａｉ，ＬＩＵ　Ｑｉ，ＦＥＮＧ　Ｊｉｎｇ．Ｂａｙｅｓ　Ｔｅｓｔ　Ａｎａｌｙｓｉｓ　

Ｍｅｔｈｏｄｓ［Ｄｊ．Ｃｈａｎｇｓｈａ：Ｎａｔｉｏｎａｌ　Ｕｎｉｖｅｒｓｉｔｙ　ｏｆ　Ｄｅｆｅｎｓｅ　Ｔｅｃｈ—　

ｎｏｌｏｇｙ，２００７：１６　４７．　

ｔｉｓｔｉｃａｌ　Ｄｅｃｉｓｉｏｎ［Ｊ］．Ａｃｔａ　Ｅｌｅｃｔｒｏｎｉｃａ　Ｓｉｎｉｃａ，２００３，３１（４）：５３６—　

５３８．　

［６］唐雪梅，张金槐，邵凤昌．武器装备小子样试验分析与评估　

［１ｏ］张金槐，唐雪梅．Ｂａｙｅｓ方法（修订版）［Ｍ］．长沙：国防科技大　

学出版社，１９９３：７　１６．　

ＺＨＡＮＧ　Ｊｉｎｈｕａｉ．ＴＡＮＧ　Ｘｕｅｍｅｉ．Ｂａｙｅｓ　Ｍｅｔｈｏｄ（ｒｅｖｉｓｅｄ　ｅｄｉ—　

［Ｍ］．北京：国防工业出版社，２００１：１—３．　

ＴＡＮＧ　Ｘｕｅｍｅｉ．ＺＨＡＮＧ　Ｊｉｎｈｕａｉ，ＳＨＡ０　Ｆｅｎｇｃｈａｎｇ．Ｔｅｓｔ　Ａ—　

ｎａｌｙｓｉｓ　ａｎｄ　Ｅｖａｌｕａｔｉｏｎ　ｏｆ　Ｗｅａｐｏｎ　Ｓｙｓｔｅｍｓ　ｉｎ　Ｓｍａｌｂｓａｍｐｌｅ　Ｃｉｒ—　

ｔｉｏｎ）［Ｍ］．Ｃｈａｎｇｓｈａ：Ｐｒｅｓｓ　ｏｆ　Ｎａｔｉｏｎａｌ　Ｕｎｉｖｅｒｓｉｔｙ　ｏｆ　Ｄｅｆｅｎｓｅ　

Ｔｅｃｈｎｏｌｏｇｙ，１９９３：７－１６．　

ｃｕｍｓｔａｎｅｅｓ［Ｍ］．Ｂｅｉｊｉｎｇ：Ｎａｔｉｏｎａｌ　Ｄｅｆｅｎｓｅ　Ｉｎｄｕｓｔｒｙ　Ｐｒｅｓｓ，　

本文标签：数据查询系统节点文件

版权声明：本文标题：基于Hadoop的大数据查询系统简述内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.roclinux.cn/b/1710899051a578602.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

Linux大棚 – 不忘初心的技术博客，浮躁时代的安静角落

基于Hadoop的大数据查询系统简述

更多相关文章

初学者必看：树莓派+USB无线网卡，一招教你轻松连接WiFi

NTBootAutofix双系统启动修复秘籍，让你的电脑重获新生

双系统引导丢失，Windows岌岌可危！修复秘籍传授！

好友一碰就消失？揭秘QQ自动退出的神秘原因

QQ浏览器自动更新设置误关？快跟着这篇教程重新开启

Ubuntu 9.10与QQ之间的兼容性问题：解决自动关闭的烦恼

192.168.0.1路由器设置疑难解答：让你的网络畅通无阻

192.168.1.1路由器管理页面轻松登陆教程，告别网络困扰

Dism工具大揭秘：Windows 10操作系统的幕后英雄

让Dism++帮您驾驭Windows系统，轻松优化

DISM++：你的Flash播放问题终结者，提升性能

一文读懂Dism命令行，Adobe Flash Player安装不再难！

Dism++：你的日常维护与系统优化好帮手

Dism++优化秘籍：一步到位提升电脑运行速度

当Windows系统出问题时，如何借助DISM挂载映像进行修复，让电脑焕然一新？

破解Windows更新难题，0x800736cc不再是问题

Windows备份不求人：自助指南助你一臂之力

Linux备份与恢复必修课：SWF文件安全策略从入门到精通

Linux系统安全小贴士：掌握备份与恢复，安心每一天

Win10系统备份轻松搞定：掌握captureimage命令的关键技巧

发表评论

推荐文章

系统编程问题：如何在权限不足的情况下，成功删除SystemVolumeInformation文件夹？

图片文件损坏，AI可以看见？

分区表错误与系统启动失败_diskgenius终止位置参数溢出

如何在路由器上安装代理服务：详细教程_路由器挂代理

菜鸟也能学会！Windows 10系统还原轻松指南

热门文章

当Windbg解析DMP文件失败，代码位置显示不出来？这里教你破解技巧！

ESET NOD32 Antivirus 13.1.21.0 - 便捷安装，无需激活

笔记本电脑显卡排名_笔记本显卡跑分排名

apk文件怎么打开(apk文件怎么打开)

CPU使用率飙升至100%的诊断与解决方案_cpu飙升原因排查

华为路由器Nasp设置以及直连路由，静态路由，缺省路由，_华为路由器language-mode

Windows磁盘合并扩展（自带工具合并两磁盘）_windows怎么合并卷

API AttachThreadInput After a whd1

卸载360安全卫士_没有足够的权限卸载360安全卫士

Ubuntu系统QQ频繁断线？一文教你快速修复方法！

最新文章

一文教会你AIX系统备份：mksysb实用指南

SWF文件备份失败？这些步骤让你轻松搞定

Win10系统备份轻松搞定：掌握captureimage命令的关键技巧

Linux系统安全小贴士：掌握备份与恢复，安心每一天

省时省心！三步完成电脑系统高效备份！

Ubuntu系统维护秘籍：备份步骤详解，保护你的劳动成果！

Linux系统不哭：高效备份与快速恢复方案

Ubuntu系统安全大计，备份技巧大公开

GHOST教程：系统备份和还原，小白也能变成高手！

Linux备份与恢复必修课：SWF文件安全策略从入门到精通

Exploring the Finest Accommodations: A Comprehensive Guide to Ruston LA Hotels

The Enchanting Experience of ScaliniTella NYC: A Culinary Gem in the Heart of Manhattan

Exploring the Exquisite Aloft Chicago O'Hare: A Blend of Modern Luxury and Convenience

A Culinary Journey: Discovering the Finest Dining Experiences in Waco, TX

A Culinary Journey: Discovering the Finest Dining Experiences in Athens, GA

电脑设备管理器在哪里？一次让我抓狂又兴奋的寻找经历

与GWX的持久战：一段关于Windows10升级弹窗的私人记忆

以管理员身份运行：那些年我们追过的权限与踩过的坑