admin 管理员组

文章数量: 1184232


2024年4月14日发(作者:做标签)

●文/图米沃奇 

此,就有了当下众多的资源统一管理或州度系统,本 

HadoOP足『}IApa r he基金会开发的一个大数 

据分布式系统基础架构,最早的版本足2003年原 

Yah00 1Df¨Jg(:l1tting根据(;aogle发柿的学术论文研究而 

来 

次为大家重点介绍ApaeheMesosT ̄.Ha(I(1I1f1 YARN 

用户町以 不j,解分布式底层细节的情况下,轻 

松地在Hado ̄lll_ I:发干¨运行处 海鲢数据的应用程 

序一低成本、离rI丁靠、高扩展、高有效、高容错等特性 

引:Hadoop成为最流行的大数据分析系统,然而其赖 

以生存 ̄(JHI)rsSllMapRP(1ute组件却让其一度陷入网 

境批处理的1 作方式让其只适川于离线数据处理, 

要求实时 t'l:-V,J场景下毫无,}_f=j武之地。 

参.  ’Itl;tNI JtUlilt a 

(1)ApacheMesos 

代码托管地址:ApacheSVN 

Mesas提供 岛效、跨分布式应川 序fJ J框 

的资源隔离和共 .艾持Ha(1IlIl『l、MPI、ttyper 1IP、 

Spark等。 

Mesas是Apar 孵化器ItI的一个歼源项¨,使川 

ZooKeeper实现容错复制,使川Lin (:()l1I{1i『1f s术隔 

离任务,支持多种资源计t划分配f内存f1I(: 1)提供 

Java、Python ̄ilC++APls来Jf发新的 行J、 川 

『大1此, 种琏于} h>c 『1的T具应运而牛,本次为 

,提 

供鉴于Webfl+J,朋户 米提 看集群状念 

大家分享Had(1(1l 生态系统中最常J1J自,J l 3个丌源 具, 

巾包括资源蒯度、流计算及各种业务针对应用场 

景 

(2)HadoopYARN 

代码托管地址:A【)}leheSVN 

YARN又被称为MapRedu( P2.0, MPsI 

在公司f11机卡勾【lI,服务器往往会 为业务逻辑 

被拆分为多个集群,甚于数据密集剐的处理框架也 

YARN提出_r资源隔离解决方案Conlai||e|·, 址门n,』 

尚未成熟,仅仅提供IJ{1va虚拟机内存的隔离、 

对比MapR PIIⅢ P1.x,YAR N架f{J1 端I 

是不断涌现,比如1支持离线处理fl(JMapRedltr 、支持 

往线处理 ̄jst,,r131及Impala、支持迭代汁 ̄;lf+'jSpark及 

流处理框架s4,它们诞生于不同的实验室,并各有所 

K。 

并未做太大的改变, 调用API及接u I 还 持 

大部分的兼容,然 在YA R N叶l, 发人员使Jl}J 

Res0ur eManager、Appli(、ati0nMaster Lj NodeManagm 

为了减少箭理成本,提升资源的利,L}J率,一个共 

同的想法产 if:这些椎架运行存同一个集群} 。冈 

黼黼 嬲嬲嘲 嬲黼 

尊j| t鬻∞ ’| f 

代替了原框架中核 L 1 ̄3J(bTracker和 skTrack 

嘲 

j■

I 

闽黼目勇|麟 囔 毽籍‰麓露咄 ‰缚瑶 

l¨≯ 

| 

t . |。 。一 

0l l0 一≯ 0_ 000 

l。0 耪ljl 曩。 《l | t j 。 簟j。。 0 

*I |i t:舅rj ! Z 熬 . 5麓 ?, . 0。 | 

-_ 8{l2_7l-一105 

『flRes叭trreMⅢⅢger足一个r 的服务,负责测度、 

_fII;动 个-lI1l 所J阻;的A aIionMastel·,另外还临 

控Appli(·atiImMaslerfl/,J存在情况:NodeManaget ̄r.责 ,

(:I1nlain¨状态的维护 ApplicationMasler负责一个Joh 

,fi命J州 Iqfl',j所仃I 作,类似老的框架r_fgohTzⅦ ker.. 

我ffJ 说过, 

车蚌需求. 、 

索、Jl,务的公· : 

。 i‘处. ̄qUlj II·k等 

联网公司巾基于、I 务 

会 JfJ多种汁并榧架,比如从事}雯 

索,jI建● Jt Jn;tI+t ̄ tlIJl_P.I,{然湃 

BaekType开发,后被 FwilhJr捕获Slo)_Il1 

平俞,多 于实时汁算 翅新数 Slot-Ill也I1f做川 

于“连续汁算”((-‘)nliiIlI()IIS(·ompulaliol1),对数掂流做 

连续查询,存计算时就将结果以流的肜』I=输…给川 

户 它还可被用_J_。‘分_佰式R ”,以ji 的 ‘ 运-7 

昂贵的运算 

(6)Shark 

代码托管地址:( ilHut 

Shark,代表'r“Hive()nSI)al·k”.一 个 

造的大规模数据仓库系统, 

HiveQI 。 

(3)CIouderal mpala 

代 托竹地川::(;ilHuh 

lI11 P“1;I址iIi(:J tlIl d PrI1开发,一个丌源的 

.{r¨r 

AI heHivt、尢]; z-修 

改现有的数据或者 询.就I J‘以川1()()俯的述 执仃 

Shark支持Hive金询 ‘、 £仃 、 列化格 M sivl l、 |);II-}IllelI rI essing(MPP)查询 jI擎 、 jHive十fI 

的兀数榭、SQiI 法、ODBC- ̄动程序和川广I接¨ 

及t'1定义函数,与现行Hive部 尢缝集成.址一个哑 

快、更强人的替代方案 

…llP P w 1x1,l叮以 接 …)FS或HBase l:提供快 

速、交 f 式SQI 夼咖..Impala足 DremelI ̄'j发下_『_f: 

发的, 一个版术发 f201241-I ̄。 

1In1)a 小I{f他川缓慢的Hive+MapRe(h P批处 

, 

(7)Phoenix 

代码托管地址:(;iiHuh 

Phoenix是构建 Apa ̄·hellBase之l 的一个 Ul 

址迎过 -jf 川t 行父系数据阼【f1类似的分 

ifJ Jjl擎(ilt()uel’yf’hlnnel‘、Quel’yCoo)’( 1;th 干¨ 

1 il1r 部分组成),II『以A接从H1)FS或 

中问层,完全使用Java编 ,提供卜一个 端f1J 嵌 

)… rY1·:、 

入的JI)BC ̄,动 Phoenix食询fJl擎会将 QI 询转换 

为一个或多个HBa s srall,行编排执i 以 成 准 

lfgJDBC ̄果集 f[接使JIIJHBast APi、 处 ! j 

HBase)II JI Jsi :¨:( JOIN和统汁嘲数 湘数 ,从 

人人降低J 

(4)Spark 

代 托僻地址:Aim(·I1r 

Spark址个J{:泺的数掂分析集群计算 架,最}JJ 

fIt』Jll州火 们 利分校AMPI al,Jf技,建●:丁HI)FS之 

Spark 

作 心川 

ll1一样,JIJ 构建大 模、低延时的 

『{定义过滤器,对于简 求说, 速度 级 

毫秒,对于百万级 ̄JiJi'i9-7t数术说.』 迷度 级址秒 

Phoenix完全托管在(;ilHu1)之卜_ 

Phoenix值得炎注的特 包括:嵌人SG(1',JJDB( 驱 

动,实现了大部分的iav}1.sql接【J,也.hr,-兀数据A ;r 

以通过多个行键 元埘列进行建模;1)1)1 持:版小 

数 分析 川、S1Ⅲ1·k采J+jsr·ala ̄].l, ‘实脱,他)tls,·ala 

s ¨k采川牡¨人】仔的分 

达代j^ ,J 1.fi 找以及交 f 

数 集,优化J 

洳 ^jHatlIll,f】 

化的模式仓库;DMI.七持;通过 户端i'l,'J41:L处 

的有限的每务支持;紧 ANsI ( 1 怀 

(8)ApacheAccumulo 

代码托管地址:Apach(, V N 

AIⅢ(·heA(川1n川Io址·个I1 J‘ n,J、lIJ‘flll缩的、 

, ,, 

¨的址. kf¨ l 紧密集成, al{1像管删本地 

¨ lle('tivr埘象JJI5样僻Silb)'4'n_rt ̄数据 Spat·k支持分 

』l=数 

现) 

㈨,J迭代 仟务, 际 I 以 lladooI 义 

离性能、排序分 式的键ffI『.仃储解决,J‘案,J r 

单兀访M控制以及ll『定制的服务 端处J:it 他 

用(;( )gleBig Fai)le设汁思路, J A f he¨ 1lIIlI,l·、 

Zookeeper ̄HThrift构建 ¨nnnh)/l, ̄011.…NSA Jl:发,J 

抛, j 

:系统f j · I, 起运行(通过YARN、Mesos等实 

(5)Storm 

代 于E'fi;地址:( ji Hul, 

f…m,址.个分 式的、 错的实时汁箅系统, 

被捐献给_rApar-h 堪 会 

埘比( 0(1g BigTahle, (·Illnllll1 

元的访问及服务器端的编羁 机制ii,J 处修收}I: 

每 

数据处理过程中任意点修改键值。 

(9)ApacheDrill 

代码托管地址:GitH·l1) 

ApacheDrill是GoogleDremel的开源实现,本质 

足一个分布式(JP'Jmpp查询层,支持SQL及一些用于 

(1 2)ApacheTez 

代码托管地址:GitH· h 

Apa( hP rez是基于Hado<ipYarn之 的DAG(仃 

无环罔’Itirecled acyclic graph)汁算框架 、它把Map/ 

RedllOP过程拆分成若干个干过程,川时町以把多个 

NoSQL和Hadoop数据存储系统上的语言,将有助于 

Hadoop用户实现更快查询海量数据集的目的。当下 

Map/Reduce任务组合成一个较l犬[tq;DAG任务,减少一1 

Map/Reduce之间的文件存储。同时合邢组合其子过 

程,减少任务的运行H;j-I'H]。tltHol·|onwol·ks开发并提供 

主要支持。 

Drill还只能算』二一个框架,只包含了Drill愿景中的初 

始功能。 

Drill的目的在于支持更广泛的数据源、数据格式 

及查询语言,可以通过对PB字节数据的快速扫捕f大 

约儿秒内)完成相关分析,将是一个专为互动分析大 

型数据集的分布式系统。 

(1 3)ApacheAmbari 

代码托管地址:ApacheSV N 

APach eA113ba ri是一个供应、管理和监视 

ApacheHadoop集群的开源框架,它提供一个直观的 

操作T具和一个健壮fl ̄JHadoopAPI,可以隐藏复杂的 

Hadoop操作,使集群操作大大简化,首个版本发布于 

2012年6月。 

ApacheAmhari现在是一个Apa(-he的顶级项 

(10)ApacheGiraph 

代码托管地址:CiiHub 

ApacheGi raph是一个可伸缩的分布式迭代图 

处理系统,灵感来自BSP(bulksynchronousparallel1 

和(;oogle的Pregel,与它们区别之处则是开源、基于 

Hadoopfl/J,架构等、 

Giraph处理平台适用于运行大规模的逻辑计 

算,比如页而排行、共享链接、基于个性化排行 

目,早在201 1年8月,Hortonw()rks引进Ambari作为 

ApachelncubatorS ̄H,制定fHa( p集群极致简单符 

理的愿景。在开发社区显著成长.从一个小团队,成 

长为Hortonworks各种组织的贞献并。Aml>ari川FJ群一 

直在稳步增长,许多机构依靠Am ri 

中心大规模部署和管理Hadtlop集群。 

大型数 

等 (;iraph专注于社交图计算,被Facebook作为其 

()penGraph ̄_具的核心,几分钟内处理数万亿次用户 

及其行为之间的连接.. 

(1 1)ApacheHama 

代码托管地址:GitHub 

Apa(.=heHan1a是一个建立在Hadoo【】上基于 

BSP(Bulksynch r(1n0usParalle1)的计算框架,模仿 

了Google的Pregel 用来处理大规模的科学计算, 

特别是矩阵和网计算。集群环境中的系统架构 

1 BSPMasIer/Gr()f1mServer(C0mputati0nEngine)、 

ZI¨)k P Pe r(Di sl ri bI1t edLOCkiIIg1、HDFS/ 

日前APacheAmbari支持的H ad… I 组件包 

括:HDFS、MapReduce、Hive、HCaiah)g、HBase、 

Zo。Ke 1 、Oozie、Pig ̄Sqf1I1P 

. 

H Base(SlorageS)rs|pms)这3大块组成。 


本文标签: 处理 集群 资源 数据 计算