admin 管理员组文章数量: 1184232
2024年4月14日发(作者:做标签)
●文/图米沃奇
此,就有了当下众多的资源统一管理或州度系统,本
HadoOP足『}IApa r he基金会开发的一个大数
据分布式系统基础架构,最早的版本足2003年原
Yah00 1Df¨Jg(:l1tting根据(;aogle发柿的学术论文研究而
来
次为大家重点介绍ApaeheMesosT ̄.Ha(I(1I1f1 YARN
用户町以 不j,解分布式底层细节的情况下,轻
松地在Hado ̄lll_ I:发干¨运行处 海鲢数据的应用程
序一低成本、离rI丁靠、高扩展、高有效、高容错等特性
引:Hadoop成为最流行的大数据分析系统,然而其赖
以生存 ̄(JHI)rsSllMapRP(1ute组件却让其一度陷入网
境批处理的1 作方式让其只适川于离线数据处理,
要求实时 t'l:-V,J场景下毫无,}_f=j武之地。
参. ’Itl;tNI JtUlilt a
(1)ApacheMesos
代码托管地址:ApacheSVN
Mesas提供 岛效、跨分布式应川 序fJ J框
的资源隔离和共 .艾持Ha(1IlIl『l、MPI、ttyper 1IP、
Spark等。
Mesas是Apar 孵化器ItI的一个歼源项¨,使川
ZooKeeper实现容错复制,使川Lin (:()l1I{1i『1f s术隔
离任务,支持多种资源计t划分配f内存f1I(: 1)提供
Java、Python ̄ilC++APls来Jf发新的 行J、 川
『大1此, 种琏于} h>c 『1的T具应运而牛,本次为
,提
供鉴于Webfl+J,朋户 米提 看集群状念
大家分享Had(1(1l 生态系统中最常J1J自,J l 3个丌源 具,
巾包括资源蒯度、流计算及各种业务针对应用场
景
(2)HadoopYARN
代码托管地址:A【)}leheSVN
YARN又被称为MapRedu( P2.0, MPsI
在公司f11机卡勾【lI,服务器往往会 为业务逻辑
被拆分为多个集群,甚于数据密集剐的处理框架也
YARN提出_r资源隔离解决方案Conlai||e|·, 址门n,』
尚未成熟,仅仅提供IJ{1va虚拟机内存的隔离、
对比MapR PIIⅢ P1.x,YAR N架f{J1 端I
是不断涌现,比如1支持离线处理fl(JMapRedltr 、支持
往线处理 ̄jst,,r131及Impala、支持迭代汁 ̄;lf+'jSpark及
流处理框架s4,它们诞生于不同的实验室,并各有所
K。
并未做太大的改变, 调用API及接u I 还 持
大部分的兼容,然 在YA R N叶l, 发人员使Jl}J
Res0ur eManager、Appli(、ati0nMaster Lj NodeManagm
为了减少箭理成本,提升资源的利,L}J率,一个共
同的想法产 if:这些椎架运行存同一个集群} 。冈
黼黼 嬲嬲嘲 嬲黼
尊j| t鬻∞ ’| f
代替了原框架中核 L 1 ̄3J(bTracker和 skTrack
嘲
j■
I
闽黼目勇|麟 囔 毽籍‰麓露咄 ‰缚瑶
l¨≯
|
t . |。 。一
0l l0 一≯ 0_ 000
l。0 耪ljl 曩。 《l | t j 。 簟j。。 0
*I |i t:舅rj ! Z 熬 . 5麓 ?, . 0。 |
-_ 8{l2_7l-一105
『flRes叭trreMⅢⅢger足一个r 的服务,负责测度、
_fII;动 个-lI1l 所J阻;的A aIionMastel·,另外还临
控Appli(·atiImMaslerfl/,J存在情况:NodeManaget ̄r.责 ,
(:I1nlain¨状态的维护 ApplicationMasler负责一个Joh
,fi命J州 Iqfl',j所仃I 作,类似老的框架r_fgohTzⅦ ker..
我ffJ 说过,
车蚌需求. 、
索、Jl,务的公· :
。 i‘处. ̄qUlj II·k等
联网公司巾基于、I 务
会 JfJ多种汁并榧架,比如从事}雯
索,jI建● Jt Jn;tI+t ̄ tlIJl_P.I,{然湃
BaekType开发,后被 FwilhJr捕获Slo)_Il1
平俞,多 于实时汁算 翅新数 Slot-Ill也I1f做川
于“连续汁算”((-‘)nliiIlI()IIS(·ompulaliol1),对数掂流做
连续查询,存计算时就将结果以流的肜』I=输…给川
户 它还可被用_J_。‘分_佰式R ”,以ji 的 ‘ 运-7
昂贵的运算
(6)Shark
代码托管地址:( ilHut
Shark,代表'r“Hive()nSI)al·k”.一 个
造的大规模数据仓库系统,
HiveQI 。
(3)CIouderal mpala
代 托竹地川::(;ilHuh
lI11 P“1;I址iIi(:J tlIl d PrI1开发,一个丌源的
.{r¨r
AI heHivt、尢]; z-修
改现有的数据或者 询.就I J‘以川1()()俯的述 执仃
Shark支持Hive金询 ‘、 £仃 、 列化格 M sivl l、 |);II-}IllelI rI essing(MPP)查询 jI擎 、 jHive十fI
的兀数榭、SQiI 法、ODBC- ̄动程序和川广I接¨
及t'1定义函数,与现行Hive部 尢缝集成.址一个哑
快、更强人的替代方案
…llP P w 1x1,l叮以 接 …)FS或HBase l:提供快
速、交 f 式SQI 夼咖..Impala足 DremelI ̄'j发下_『_f:
发的, 一个版术发 f201241-I ̄。
1In1)a 小I{f他川缓慢的Hive+MapRe(h P批处
,
(7)Phoenix
代码托管地址:(;iiHuh
Phoenix是构建 Apa ̄·hellBase之l 的一个 Ul
址迎过 -jf 川t 行父系数据阼【f1类似的分
ifJ Jjl擎(ilt()uel’yf’hlnnel‘、Quel’yCoo)’( 1;th 干¨
1 il1r 部分组成),II『以A接从H1)FS或
中问层,完全使用Java编 ,提供卜一个 端f1J 嵌
(
)… rY1·:、
.
入的JI)BC ̄,动 Phoenix食询fJl擎会将 QI 询转换
为一个或多个HBa s srall,行编排执i 以 成 准
lfgJDBC ̄果集 f[接使JIIJHBast APi、 处 ! j
HBase)II JI Jsi :¨:( JOIN和统汁嘲数 湘数 ,从
人人降低J
(4)Spark
代 托僻地址:Aim(·I1r
Spark址个J{:泺的数掂分析集群计算 架,最}JJ
fIt』Jll州火 们 利分校AMPI al,Jf技,建●:丁HI)FS之
Spark
作 心川
ll1一样,JIJ 构建大 模、低延时的
『{定义过滤器,对于简 求说, 速度 级
毫秒,对于百万级 ̄JiJi'i9-7t数术说.』 迷度 级址秒
Phoenix完全托管在(;ilHu1)之卜_
Phoenix值得炎注的特 包括:嵌人SG(1',JJDB( 驱
动,实现了大部分的iav}1.sql接【J,也.hr,-兀数据A ;r
以通过多个行键 元埘列进行建模;1)1)1 持:版小
数 分析 川、S1Ⅲ1·k采J+jsr·ala ̄].l, ‘实脱,他)tls,·ala
s ¨k采川牡¨人】仔的分
达代j^ ,J 1.fi 找以及交 f
数 集,优化J
洳 ^jHatlIll,f】
化的模式仓库;DMI.七持;通过 户端i'l,'J41:L处
的有限的每务支持;紧 ANsI ( 1 怀
(8)ApacheAccumulo
代码托管地址:Apach(, V N
AIⅢ(·heA(川1n川Io址·个I1 J‘ n,J、lIJ‘flll缩的、
, ,,
¨的址. kf¨ l 紧密集成, al{1像管删本地
¨ lle('tivr埘象JJI5样僻Silb)'4'n_rt ̄数据 Spat·k支持分
』l=数
现)
㈨,J迭代 仟务, 际 I 以 lladooI 义
离性能、排序分 式的键ffI『.仃储解决,J‘案,J r
单兀访M控制以及ll『定制的服务 端处J:it 他
用(;( )gleBig Fai)le设汁思路, J A f he¨ 1lIIlI,l·、
Zookeeper ̄HThrift构建 ¨nnnh)/l, ̄011.…NSA Jl:发,J
抛, j
:系统f j · I, 起运行(通过YARN、Mesos等实
(5)Storm
代 于E'fi;地址:( ji Hul,
f…m,址.个分 式的、 错的实时汁箅系统,
被捐献给_rApar-h 堪 会
埘比( 0(1g BigTahle, (·Illnllll1
元的访问及服务器端的编羁 机制ii,J 处修收}I:
每
数据处理过程中任意点修改键值。
(9)ApacheDrill
代码托管地址:GitH·l1)
ApacheDrill是GoogleDremel的开源实现,本质
足一个分布式(JP'Jmpp查询层,支持SQL及一些用于
(1 2)ApacheTez
代码托管地址:GitH· h
Apa( hP rez是基于Hado<ipYarn之 的DAG(仃
无环罔’Itirecled acyclic graph)汁算框架 、它把Map/
RedllOP过程拆分成若干个干过程,川时町以把多个
NoSQL和Hadoop数据存储系统上的语言,将有助于
Hadoop用户实现更快查询海量数据集的目的。当下
Map/Reduce任务组合成一个较l犬[tq;DAG任务,减少一1
Map/Reduce之间的文件存储。同时合邢组合其子过
程,减少任务的运行H;j-I'H]。tltHol·|onwol·ks开发并提供
主要支持。
Drill还只能算』二一个框架,只包含了Drill愿景中的初
始功能。
Drill的目的在于支持更广泛的数据源、数据格式
及查询语言,可以通过对PB字节数据的快速扫捕f大
约儿秒内)完成相关分析,将是一个专为互动分析大
型数据集的分布式系统。
(1 3)ApacheAmbari
代码托管地址:ApacheSV N
APach eA113ba ri是一个供应、管理和监视
ApacheHadoop集群的开源框架,它提供一个直观的
操作T具和一个健壮fl ̄JHadoopAPI,可以隐藏复杂的
Hadoop操作,使集群操作大大简化,首个版本发布于
2012年6月。
ApacheAmhari现在是一个Apa(-he的顶级项
(10)ApacheGiraph
代码托管地址:CiiHub
ApacheGi raph是一个可伸缩的分布式迭代图
处理系统,灵感来自BSP(bulksynchronousparallel1
和(;oogle的Pregel,与它们区别之处则是开源、基于
Hadoopfl/J,架构等、
Giraph处理平台适用于运行大规模的逻辑计
算,比如页而排行、共享链接、基于个性化排行
目,早在201 1年8月,Hortonw()rks引进Ambari作为
ApachelncubatorS ̄H,制定fHa( p集群极致简单符
理的愿景。在开发社区显著成长.从一个小团队,成
长为Hortonworks各种组织的贞献并。Aml>ari川FJ群一
直在稳步增长,许多机构依靠Am ri
中心大规模部署和管理Hadtlop集群。
大型数
等 (;iraph专注于社交图计算,被Facebook作为其
()penGraph ̄_具的核心,几分钟内处理数万亿次用户
及其行为之间的连接..
(1 1)ApacheHama
代码托管地址:GitHub
Apa(.=heHan1a是一个建立在Hadoo【】上基于
BSP(Bulksynch r(1n0usParalle1)的计算框架,模仿
了Google的Pregel 用来处理大规模的科学计算,
特别是矩阵和网计算。集群环境中的系统架构
1 BSPMasIer/Gr()f1mServer(C0mputati0nEngine)、
ZI¨)k P Pe r(Di sl ri bI1t edLOCkiIIg1、HDFS/
日前APacheAmbari支持的H ad… I 组件包
括:HDFS、MapReduce、Hive、HCaiah)g、HBase、
Zo。Ke 1 、Oozie、Pig ̄Sqf1I1P
.
H Base(SlorageS)rs|pms)这3大块组成。
版权声明:本文标题:大数据分析系统Hadoop的13个开源工具 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.roclinux.cn/b/1713093923a619540.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论