admin 管理员组文章数量: 1086019
2024年3月20日发(作者:指数对数函数知识点归纳)
传统的系统已无法处理结构多变的大数据,而高性能硬件和专用服务器价格
昂贵且不灵活,Hadoop因此应运而生。Hadoop使用互连的廉价商业硬件,
通过数百甚至数千个低成本服务器协同工作,可有效存储和处理大量数据。
01Hadoop生态体系
Google通过三篇重量级论文为大数据时代提供了三项革命性技术:GFS、
MapReduce和BigTable,即所谓的Google大数据的“三驾马车”。
▪
GFS(Google File System)是Google面向大规模数据密集型应用的、可伸缩
的分布式文件系统,可在廉价的硬件上运行,并具有可靠的容错能力。
▪
MapReduce是一种并行编程模式,可以在超大分布式集群上并行运算,对超
大规模数据集进行处理。
▪
BigTable是在GFS上构建的处理结构化数据的分布式数据库,可以用于处理
海量数据的更新和随机查询。
Hadoop和Hbase是基于这三项技术发展出的开源实现。在大数据分析和处理
领域,Hadoop兼容体系已经成为一个非常成熟的生态圈,涵盖了很多大数
据相关的基础组件,包括Hadoop、Hbase、Hive、Spark、Flink、Storm、
Presto、Impala等。
一文搞懂Hadoop生态系统
02Hadoop集群硬件架构
Hadoop集群遵循主从架构,由一个或多个主节点(控制节点)和大量从节
点组成,可以通过增减节点实现线性水平扩展。集群中的每个节点都有自己
的磁盘、内存、处理器和带宽。主节点负责存储元数据,管理整个集群中的
资源,并将任务分配给从节点;从节点负责存储数据并执行计算任务。
Hadoop包含三大组件:HDFS、Yarn和MapReduce。HDFS负责将文件切
分为固定大小的数据块,以多副本分布式方式进行存储。Yarn是资源管理
器,通过不同的进程执行资源管理和任务调度/监控任务。MapReduce是计算
层,它通过将数据处理逻辑抽象为Map任务和Reduce任务,将“计算”在贴
近数据存储位置并行执行。
Hadoop集群硬件架构如图1所示,具体的组件部署结构分析如下。
▪
主节点上:部署HDFS的NameNode组件,管理命名空间,管理客户端对文
件的访问,负责跟踪数据块到DataNode的映射;部署Yarn的
ResourceManager组件,管理整个集群中的资源。
▪
从节点上:部署HDFS的DataNode组件,服务于客户端的读/写请求;部署
Yarn的NodeManager组件,监视本节点容器的资源使用情况,并将其报告给
Resource-Manager;运行MapReduce的容器。
▲ 图1 Hadoop集群硬件架构
03Hadoop体系分层功能架构
Hadoop设计了一个在分布式集群上实现资源管理与功能水平分层的架构,该
分层解耦架构让大家可以在Hadoop上不断地叠加组件,并且每个组件可以独
立升级,同类组件可以相互竞争,不断提升性能。作为Hadoop生态系统的核
版权声明:本文标题:把Hadoop大数据系统架构讲明白了 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.roclinux.cn/p/1710899163a578605.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论