admin 管理员组文章数量: 1086019
2024年4月14日发(作者:电商html是什么意思)
1.概述
最近收到一些同学和朋友的邮件,说能不能整理一下 Hadoop 生态圈的相关内容,然
后分享一些,我觉得这是一个不错的提议,于是,花了一些业余时间整理了 Hadoop 的生
态系统,并将其进行了归纳总结,进而将其以表格的形式进行了罗列。涉及的内容有以下几
点:
分布式文件系统
分布式编程模型
NoSQL 数据库
SQL-On-Hadoop
数据采集
编程服务中间件
调度系统
系统部署
数据可视化
2.内容
2.1 分布式文件系统
2.1.1 Apache HDFS
在分布式文件系统当中,首先为大家所熟悉的是 Apache 的 HDFS。全称为 Hadoop
Distributed File System,由多台机器组建的集群,存储大数据文件。HDFS 的灵感来自
于 Google File System(GFS)。Hadoop 2.x 版本之前,NameNode 是存在单点故
障的。在 ZooKeeper 的高可用性功能解决了 HDFS 的这个问题,通过提供运行两个冗
余的节点在同一个集群中进行主备切换,即:Active & Standby
相关链接地址如下所示:
1.
2.
3.
4.
Apache Hadoop
Google File System
Cloudera
Hortonworks
2.1.2 Red Hat GlusterFS
GlusterFS 是一个扩展的网络附加存储文件系统。GlusterFS 最初是由 Gluster 公
司开发的,然后,由 Red Hat 公司在2011年进行了购买。2012年六月,Red Hat 存
储服务器被宣布为商业支持的整合与 Red Hat 企业 Linux GlusterFS。Gluster 文件系
统,现在称为 Red Hat 存储服务器。
相关链接地址如下所示:
1.
2.
Gluster 官网
Red Hat Hadoop 插件
2.1.3 QFS
QFS 是一个开源的分布式文件系统软件包,用于对 MapReduce 批处理工作负载。
她被设计为一种 Apache Hadoop 的 HDFS 另一种选择方案,用于大型加工集群提供更
好的性能和成本效率。它用 C++ 和固定占用内存管理。QFS 使用 Reed-Solomon 纠
错保证可靠的数据访问方法。Reed-Solomon 编码在海量存储系统中被广泛应用,以纠正
与媒体缺陷相关的突发错误。而不是存储每个文件或是像 HDFS 一样,存储 3+ 次以上,
QFS 仅仅需要 1.5 倍的原始容量,因为它存储在哎九个不同的磁盘驱动上。
相关链接地址如下所示:
1.
2.
3.
QFS 官网
Github QFS
Hadoop-8885
2.1.4 Ceph Filesystem
Ceph 是一个免费的软件存储平台,被设计为对象,块和从单一节点到集群的文件存储。
它的主要目标是完全分布式无单点鼓掌,可水平扩展到 PB 容量,对多种工作负载的高性
能,以及高可用性。
相关链接地址如下所示:
1.
2.
3.
Ceph Filesystem 官网
Ceph and Hadoop
HADOOP-6253
2.1.5 Lustre file system
Lustre 是由 Linux 和 Cluster 演变而来,是为了解决海量存储问题而设计的全新的
文件系统。可支持达 1w 节点,PB 的存储容量,100GB/S 的传输速度。Lustre 是基于
对象的存储系统,减少元数据服务器的 iNode。它实际上还是将数据条带化到各个存储目
标上,所以可以实现高度聚合 IO 能力。Lustre 原生态支持海量小文件读写;且对大文件
读写在 Linux 内核做了特殊优化。另外,Lustre 是个对用户透明的 Share 文件系统,
条带化数据的位置信息不能完美的暴露出来,所以要用上 Hadoop 的 MapReduce 优势
还需要做很多工作。
版权声明:本文标题:Hadoop生态环境(一) 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.roclinux.cn/p/1713095043a619599.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论