admin 管理员组

文章数量: 1086019


2024年4月14日发(作者:电商html是什么意思)

1.概述

最近收到一些同学和朋友的邮件,说能不能整理一下 Hadoop 生态圈的相关内容,然

后分享一些,我觉得这是一个不错的提议,于是,花了一些业余时间整理了 Hadoop 的生

态系统,并将其进行了归纳总结,进而将其以表格的形式进行了罗列。涉及的内容有以下几

点:

分布式文件系统

分布式编程模型

NoSQL 数据库

SQL-On-Hadoop

数据采集

编程服务中间件

调度系统

系统部署

数据可视化

2.内容

2.1 分布式文件系统

2.1.1 Apache HDFS

在分布式文件系统当中,首先为大家所熟悉的是 Apache 的 HDFS。全称为 Hadoop

Distributed File System,由多台机器组建的集群,存储大数据文件。HDFS 的灵感来自

于 Google File System(GFS)。Hadoop 2.x 版本之前,NameNode 是存在单点故

障的。在 ZooKeeper 的高可用性功能解决了 HDFS 的这个问题,通过提供运行两个冗

余的节点在同一个集群中进行主备切换,即:Active & Standby

相关链接地址如下所示:

1.

2.

3.

4.

Apache Hadoop

Google File System

Cloudera

Hortonworks

2.1.2 Red Hat GlusterFS

GlusterFS 是一个扩展的网络附加存储文件系统。GlusterFS 最初是由 Gluster 公

司开发的,然后,由 Red Hat 公司在2011年进行了购买。2012年六月,Red Hat 存

储服务器被宣布为商业支持的整合与 Red Hat 企业 Linux GlusterFS。Gluster 文件系

统,现在称为 Red Hat 存储服务器。

相关链接地址如下所示:

1.

2.

Gluster 官网

Red Hat Hadoop 插件

2.1.3 QFS

QFS 是一个开源的分布式文件系统软件包,用于对 MapReduce 批处理工作负载。

她被设计为一种 Apache Hadoop 的 HDFS 另一种选择方案,用于大型加工集群提供更

好的性能和成本效率。它用 C++ 和固定占用内存管理。QFS 使用 Reed-Solomon 纠

错保证可靠的数据访问方法。Reed-Solomon 编码在海量存储系统中被广泛应用,以纠正

与媒体缺陷相关的突发错误。而不是存储每个文件或是像 HDFS 一样,存储 3+ 次以上,

QFS 仅仅需要 1.5 倍的原始容量,因为它存储在哎九个不同的磁盘驱动上。

相关链接地址如下所示:

1.

2.

3.

QFS 官网

Github QFS

Hadoop-8885

2.1.4 Ceph Filesystem

Ceph 是一个免费的软件存储平台,被设计为对象,块和从单一节点到集群的文件存储。

它的主要目标是完全分布式无单点鼓掌,可水平扩展到 PB 容量,对多种工作负载的高性

能,以及高可用性。

相关链接地址如下所示:

1.

2.

3.

Ceph Filesystem 官网

Ceph and Hadoop

HADOOP-6253

2.1.5 Lustre file system

Lustre 是由 Linux 和 Cluster 演变而来,是为了解决海量存储问题而设计的全新的

文件系统。可支持达 1w 节点,PB 的存储容量,100GB/S 的传输速度。Lustre 是基于

对象的存储系统,减少元数据服务器的 iNode。它实际上还是将数据条带化到各个存储目

标上,所以可以实现高度聚合 IO 能力。Lustre 原生态支持海量小文件读写;且对大文件

读写在 Linux 内核做了特殊优化。另外,Lustre 是个对用户透明的 Share 文件系统,

条带化数据的位置信息不能完美的暴露出来,所以要用上 Hadoop 的 MapReduce 优势

还需要做很多工作。


本文标签: 数据 进行 集群 相关 工作