admin 管理员组

文章数量: 1086019


2024年3月20日发(作者:指数对数函数知识点归纳)

传统的系统已无法处理结构多变的大数据,而高性能硬件和专用服务器价格

昂贵且不灵活,Hadoop因此应运而生。Hadoop使用互连的廉价商业硬件,

通过数百甚至数千个低成本服务器协同工作,可有效存储和处理大量数据。

01Hadoop生态体系

Google通过三篇重量级论文为大数据时代提供了三项革命性技术:GFS、

MapReduce和BigTable,即所谓的Google大数据的“三驾马车”。

GFS(Google File System)是Google面向大规模数据密集型应用的、可伸缩

的分布式文件系统,可在廉价的硬件上运行,并具有可靠的容错能力。

MapReduce是一种并行编程模式,可以在超大分布式集群上并行运算,对超

大规模数据集进行处理。

BigTable是在GFS上构建的处理结构化数据的分布式数据库,可以用于处理

海量数据的更新和随机查询。

Hadoop和Hbase是基于这三项技术发展出的开源实现。在大数据分析和处理

领域,Hadoop兼容体系已经成为一个非常成熟的生态圈,涵盖了很多大数

据相关的基础组件,包括Hadoop、Hbase、Hive、Spark、Flink、Storm、

Presto、Impala等。

一文搞懂Hadoop生态系统

02Hadoop集群硬件架构

Hadoop集群遵循主从架构,由一个或多个主节点(控制节点)和大量从节

点组成,可以通过增减节点实现线性水平扩展。集群中的每个节点都有自己

的磁盘、内存、处理器和带宽。主节点负责存储元数据,管理整个集群中的

资源,并将任务分配给从节点;从节点负责存储数据并执行计算任务。

Hadoop包含三大组件:HDFS、Yarn和MapReduce。HDFS负责将文件切

分为固定大小的数据块,以多副本分布式方式进行存储。Yarn是资源管理

器,通过不同的进程执行资源管理和任务调度/监控任务。MapReduce是计算

层,它通过将数据处理逻辑抽象为Map任务和Reduce任务,将“计算”在贴

近数据存储位置并行执行。

Hadoop集群硬件架构如图1所示,具体的组件部署结构分析如下。

主节点上:部署HDFS的NameNode组件,管理命名空间,管理客户端对文

件的访问,负责跟踪数据块到DataNode的映射;部署Yarn的

ResourceManager组件,管理整个集群中的资源。

从节点上:部署HDFS的DataNode组件,服务于客户端的读/写请求;部署

Yarn的NodeManager组件,监视本节点容器的资源使用情况,并将其报告给

Resource-Manager;运行MapReduce的容器。

▲ 图1 Hadoop集群硬件架构

03Hadoop体系分层功能架构

Hadoop设计了一个在分布式集群上实现资源管理与功能水平分层的架构,该

分层解耦架构让大家可以在Hadoop上不断地叠加组件,并且每个组件可以独

立升级,同类组件可以相互竞争,不断提升性能。作为Hadoop生态系统的核


本文标签: 数据 组件 节点 集群