首页编程正文内容

从Hadoop到ClickHouse

编程

更新时间：2026-04-04 13:26:13 69

admin 管理员组

文章数量: 1184232

2024年6月2日发(作者：css入场动画)

从Hadoop到ClickHouse，现代BI系统

有哪些问题？如何解决？

2006年开源项目Hadoop的出现，标志着大数据技术普及的开始，大数据技术真正开始走向

普罗大众。长期以来受限于数据库处理能力而苦不堪言的各路豪杰们，仿佛发现了新大陆，

于是一轮波澜壮阔的技术革新浪潮席卷而来。

从某种角度来看，以使用Hadoop生态为代表的这类非传统关系型数据库技术所实现的BI

系统，可以称为现代BI系统。换装了大马力发动机的现代BI系统在面对海量数据分析的场

景时，显得更加游刃有余。

然而Hadoop技术也不是银弹，在现代BI系统的构建中仍然面临诸多挑战。在海量数据下

要实现多维分析的实时应答，仍旧困难重重。（现代BI系统的典型应用场景是多维分析，

某些时候可以直接使用OLAP指代这类场景。）

Hadoop最初指代的是分布式文件系统HDFS和MapReduce计算框架，但是它一路高歌猛进，

在此基础之上像搭积木一般快速发展成为一个庞大的生态（包括Yarn、Hive、HBase、Spark

等数十种之多）。在大量数据分析场景的解决方案中，传统关系型数据库很快就被Hadoop

生态所取代，我所处的BI领域就是其中之一。

传统关系型数据库所构建的数据仓库，被以Hive为代表的大数据技术所取代，数据查询分

析的手段也层出不穷，Spark、Impala、Kylin等百花齐放。Hadoop发展至今，早已上升成

为大数据的代名词，仿佛一提到海量数据分析场景下的技术选型，就非Hadoop生态莫属。

虽然Hadoop生态化的属性带来了诸多便利性，例如分布式文件系统HDFS可以直接作为其他

组件的底层存储（例如HBase、Hive等），生态内部的组件之间不用重复造轮子，只需相互

借力、组合就能形成新的方案。

但生态化的另一面则可以看作臃肿和复杂。Hadoop生态下的每种组件都自成一体、相互独

立，这种强强组合的技术组件有些时候显得过于笨重了。与此同时，随着现代化终端系统对

实效性的要求越来越高，Hadoop在海量数据和高时效性的双重压力下，也显得有些力不从

心了。

我从2012年正式进入大数据领域，开始从事大数据平台相关的基础研发工作。2016年我所

在的公司启动了战略性创新产品的规划工作，自此我开始将工作重心转到设计并研发一款具

备现代化SaaS属性的BI分析类产品上。为了实现人人都是分析师的最终目标，这款BI产

品必须至少具备如下特征。

▪

一站式：下至数百条数据的个人Excel表格，上至数亿级别的企业数据，都能够在系统内部

被直接处理。

▪

自服务，简单易用：面向普通用户而非专业IT人员，通过简单拖拽或搜索维度，就能完成

初步的分析查询。分析内容可以是自定义的，并不需要预先固定好。

▪

实时应答：无论数据是什么体量级别，查询必须在毫秒至1秒内返回。数据分析是一个通过

不断提出假设并验证假设的过程，只有做到快速应答，这种分析过程的路径才算正确。

▪

专业化、智能化：需要具备专业化程度并具备智能化的提升空间，需要提供专业的数学方法。

▪

为了满足上述产品特性，我们在进行底层数据库技术选型的时候可谓是绞尽脑汁。

以Spark为代表的新一代ROLAP方案虽然可以一站式处理海量数据，但无法真正做到实时应

答和高并发，它更适合作为一个后端的查询系统。而新一代的MOLAP方案虽然解决了大部分

查询性能的瓶颈问题，能够做到实时应答，但数据膨胀和预处理等问题依然没有被很好解决。

除了上述两类方案之外，也有一种另辟蹊径的选择，即摒弃ROLAP和MOALP转而使用搜索引

擎来实现OLAP查询，ElasticSearch是这类方案的代表。ElasticSearch支持实时更新，在

百万级别数据的场景下可以做到实时聚合查询，但是随着数据体量的继续增大，它的查询性

能也将捉襟见肘。

难道真的是鱼与熊掌不可兼得了吗？直到有一天，在查阅一份Spark性能报告的时候，我不

经意间看到了一篇性能对比的博文。

Spark的对手是一个我从来没有见过的陌生名字，在10亿条测试数据的体量下，Spark这个

我心目中的绝对王者，居然被对手打得落花流水，查询响应时间竟然比对手慢数90%之多。

而对手居然只使用了一台配有i5 CPU、16GB内存和SSD磁盘的普通PC电脑。

我揉了揉眼睛，定了定神，这不是做梦。ClickHouse就这样进入了我的视野。

1. 天下武功唯快不破

我对ClickHouse的最初印象极为深刻，其具有ROLAP、在线实时查询、完整的DBMS、列式

存储、不需要任何数据预处理、支持批量更新、拥有非常完善的SQL支持和函数、支持高可

用、不依赖Hadoop复杂生态、开箱即用等许多特点。

特别是它那夸张的查询性能，我想大多数刚接触ClickHouse的人也一定会因为它的性能指

标而动容。在一系列官方公布的基准测试对比中，ClickHouse都遥遥领先对手，这其中不

乏一些我们耳熟能详的名字。

所有用于对比的数据库都使用了相同配置的服务器，在单个节点的情况下，对一张拥有133

个字段的数据表分别在1000万、1亿和10亿三种数据体量下执行基准测试，基准测试的范

围涵盖43项SQL查询。

在1亿数据集体量的情况下，ClickHouse的平均响应速度是Vertica的2.63倍、InfiniDB

的17倍、MonetDB的27倍、Hive的126倍、MySQL的429倍以及Greenplum的10倍。

详细的测试结果可以查阅：

2. 社区活跃

ClickHouse是一款开源软件，遵循Apache License 2.0协议，所以它可以被免费使用。同

时它的开源社区也非常跃度，其在全球范围内约有400位贡献者。

ClickHouse版本发布频率惊人，基本保持着每个月发布一次版本的更新频率。友好的开源

协议、活跃的社区加上积极的响应，意味着我们可以及时获取最新特性并得到修复缺陷的补

丁。

本文标签：数据技术查询数据库使用

版权声明：本文标题：从Hadoop到ClickHouse 内容由网友自发贡献，该文观点仅代表作者本人，转载请联系作者并注明出处：http://www.roclinux.cn/b/1717291077a704326.html，本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，一经查实，本站将立刻删除。

更多相关文章

硬盘坏了，数据要凉凉了吗？——硬盘坏道数据恢复，找回丢失数据的希望！

技术日记

19天前

电脑硬盘坏了数据可以恢复吗？对于这种问题，还需要具体问题具体分析的，一般是可以恢复。硬盘损坏可以分为物理损坏和逻辑损坏两种情况： 1.逻辑损坏这通常是由于软件问题，如文件系统错误、病毒攻击、误删除、格式化等

Ubuntu新手必备：静态IP配置步骤详述

技术日记

19天前

为Ubuntu系统设置静态IP 前言之前在使用Ubuntu时，Ubuntu一直都是固定分配为一个IP，今天和其他师傅交流的时候分配的IP突然改了，当时打开VMware看IP，改.ssh感觉非常狼狈，于是回来就为其配置

Adobe Flash Player与SWF：一段从技术到应用的旅程

技术日记

18天前

一、Application Data简介Applicaion Data相当于桌面应用的注册表，存储一些用户配置信息，如运行时状态，用户喜好等，需要注意的时，当卸载应用时，这些数据会被删除，所以不要存储重要数

老毛桃装机卡在路上？排查攻略，让你一目了然！

编程

18天前

目的就是用老毛桃安装win10系统。好久不用这些东西了，因为系统装了之后，就很少动了；今天新同事要重装系统，我就帮助重新装了一下，顺便记录一下用法。过程很简单，重点说一下装机过程中遇上的问

移动硬盘无法读取是怎么回事？解决方法看这里！_读取外置硬盘

编程

17天前

在日常办公生活中，我们仅仅使用电脑的话，已经远远不够存储我们的重要数据，这时候我们会采用移动硬盘、U盘等外置数据储存设备。它们虽然都有着小巧的体积，但是能够存储大量的信息和数据，随时和电脑连接实现数据互通，给我们的电脑工作带来极大的便

关于python打包py文件成exe文件_pycharm打包exe文件

编程

17天前

这里就只介绍常用的pyinstaller打包方法以及一些常遇到的问题目录一.打包步骤第一步：安装打包所依赖的包（pyinstaller）在cmd命令行中输入以下命令，然后回车进行安装 pi

mysql的cpu使用率100%问题排查_mysqld cpu 100%

编程

17天前

背景线上mysql服务器经常性出现cpu使用率100%的告警，因此整理一下排查该问题的常规流程。1. 确认CPU占用来源检查系统进程使用 top或

jQuery-scrollLock 项目常见问题解决方案

技术日记

16天前

jQuery-scrollLock 项目常见问题解决方案项目基础介绍 jQuery-scrollLock 是一个基于 jQuery 的开源插件，主要用于锁定指定容器内部的鼠标滚轮滚动，防止滚动事件传播到父元素。该项目

【Tools】TeamViewer安装教程_teamviewer教程csdn

编程

16天前

00. 目录 01. TeamViewer简介 TeamViewer 是一个远程控制、桌面共享和文件传输的简单和快速的解决方案，它可以穿越工作在任何防火墙和NAT代理。要连接到另一台计算机，只需在两台计算机上运行Tea

破解XP开机密码方法

编程

16天前

如何破解XP开机密码当Windows XP登录密码丢失时，我们可以针对不同的情况采用不同的办法来解决： (1)如果在安装Windows XP时，Administrator密码设置为空。大家可以在系统引导的时候

使用OpenCV在按下Enter键时截图并保存到指定文件夹_opencv按键保存图片

编程

15天前

使用OpenCV在按下Enter键时截图并保存到指定文件夹在这篇博客中，我们将介绍如何使用OpenCV库来实现一个简单的功能：在按下Enter键时从摄像头截图并保存到指定的文件夹中。这个功能可以用于各种应用，例如监控系统、视

incite自动标引_知网引用格式incite

编程

15天前

各位科研er们写论文时，常常会需要引用大量参考文献。手动逐一标注编号并引用参考文献，非常耗时，如果引用顺序发生了变化，相应的参考文献也会需要手动进行调整。沁言学术wordwps插件端，使用InCite功能，您只需要关注创作

如何轻松强制删除电脑上的文件_强制删除电脑文件

技术日记

15天前

有时，文件无法通过常规方法删除，可能是因为它们正在使用、已损坏或受到保护。遇到这种情况，您需要强制删除文件的方法。别担心，本指南将通过以下分步说明，告诉您如何在 Windows 或 Mac 电脑上强制删除文件。第一部分：如何

CPU使用率监测

技术日记

15天前

看到 yrt888 提出的问题，抽空研究了一下，发现其实并不像网上那些示例写的，计算其实很简单，只要使用SystemProcessorPerformanceInformation 参数反复调用NtQuerySystemInfor

如何在电脑上控制手机？电脑控制手机教程_vysor

编程

15天前

要通过电脑控制手机，您可以使用一些专业软件，如Total Control、ApowerMirror、或AirDroid等。这些软件允许您将手机屏幕镜像到电脑，并使用鼠标和键盘控制手机。以下是一个简单的教程，教您如何使用Total Co

我的优盘使用BitLocker加密，被我热拔以后，插上电脑不会显示密码框，并且无法打开优盘，点击提示请将磁盘插入可移动磁盘，但是有优盘图标，如何解决？_硬件开发-问答

技术日记

15天前

首先是使用了加密，但是没有弹出密码框，然后也没法打开优盘，想问一下大老们要怎么处理收起阿里嘎多学长整理AIGC生成，因移动端显示问题导致当前答案未能完全显示，请使用PC端查看更加详细的解答过程解决方案你的问题

Centos LVM磁盘合并方法_centos合并硬盘

技术日记

11天前

Centos LVM磁盘合并方法使用fdisk -l命令查看机器增加了2块物理磁盘，一块40G另一块50G 需要将这两块盘的空间合并在一起，而且还需要动态扩展即在不关机的情况下操作使用pvcreate将两块

[Windows编程] 使用AttachThreadInput 来捕捉其它窗口的键盘输入

编程

10天前

在一些情况下（比如屏幕软键盘或者输入法程序），自己的窗口没有输入焦点但是想要当前焦点窗口的键盘输入消息，可以使用Win32 API函数来解决这个问题。AttachThreadInput把一个线程( idAtta

正斜杠与反斜杠的使用差异

编程

10天前

分享一下我老师大神的人工智能教程！零基础，通俗易懂！也欢迎大家转载本篇文章。分享知识，造福人民，实现我们中华民族伟大复兴！给我老师的人工智能教程打call！你好！这是你第一次使用 **Markdo

电脑卡顿解决方法大全（2025终极版）| 开机慢、运行卡、游戏掉帧？14种快速修复方案+长期优化指南_电脑卡顿反应慢怎么处理

编程

10天前

前言你的电脑卡顿属于哪种类型？快速诊断指南：开机卡：开机时间>1分钟，桌面加载慢→启动项过多硬盘性能差运行卡：开几个软件就卡，切换程序慢→内存不足CPU性能低游戏卡：游戏掉帧、画

发表评论

全部评论 0

暂无评论

Linux大棚 – 不忘初心的技术博客，浮躁时代的安静角落

从Hadoop到ClickHouse

更多相关文章

硬盘坏了，数据要凉凉了吗？——硬盘坏道数据恢复，找回丢失数据的希望！

Ubuntu新手必备：静态IP配置步骤详述

Adobe Flash Player与SWF：一段从技术到应用的旅程

老毛桃装机卡在路上？排查攻略，让你一目了然！

移动硬盘无法读取是怎么回事？解决方法看这里！_读取外置硬盘

关于python打包py文件成exe文件_pycharm打包exe文件

mysql的cpu使用率100%问题排查_mysqld cpu 100%

jQuery-scrollLock 项目常见问题解决方案

【Tools】TeamViewer安装教程_teamviewer教程csdn

破解XP开机密码方法

使用OpenCV在按下Enter键时截图并保存到指定文件夹_opencv按键保存图片

incite自动标引_知网引用格式incite

如何轻松强制删除电脑上的文件_强制删除电脑文件

CPU使用率监测

如何在电脑上控制手机？电脑控制手机教程_vysor

我的优盘使用BitLocker加密，被我热拔以后，插上电脑不会显示密码框，并且无法打开优盘，点击提示请将磁盘插入可移动磁盘，但是有优盘图标，如何解决？_硬件开发-问答

Centos LVM磁盘合并方法_centos合并硬盘

[Windows编程] 使用AttachThreadInput 来捕捉其它窗口的键盘输入

正斜杠与反斜杠的使用差异

电脑卡顿解决方法大全（2025终极版）| 开机慢、运行卡、游戏掉帧？14种快速修复方案+长期优化指南_电脑卡顿反应慢怎么处理

发表评论

推荐文章

对于192.168.0.0到192.168.0.255这个网络来说，以下说法中正确的是

移动硬盘文件或目录损坏且无法读取如何恢复：高效数据恢复解决方案

Windows Cleaner：智能清理系统垃圾，告别C盘焦虑

通过命令行卸载IE9、IE10和IE11的方法

双系统启动菜单问题？NTBOOTautofix帮你快速解决！

热门文章

无需复杂步骤，XP桌面一键设置宽带连接图标"

揭秘：为什么我电脑上既有Program Files又有Program Files(x86)?

快速安装，无需等待，Net Framework 2.0免费包助你一臂之力！

windows 清除系统垃圾_delete windows system garbarge

6.0无法一键root吗，root一键root_安卓6.0 root

无法打开"添加删除程序"现象解决方法

揭开 Realtek HD Audio 及 Realtek(R) Audio 的2nd Output 面纱：技术揭秘

Ubuntu新手指南：普通用户如何配置USB设备权限，无需sudo开启相机

当Windows系统出问题时，如何借助DISM挂载映像进行修复，让电脑焕然一新？

C盘大搬家？别怕，Ghost备份带你安全过！

最新文章

一文教会你AIX系统备份：mksysb实用指南

SWF文件备份失败？这些步骤让你轻松搞定

Win10系统备份轻松搞定：掌握captureimage命令的关键技巧

Linux系统安全小贴士：掌握备份与恢复，安心每一天

省时省心！三步完成电脑系统高效备份！

Ubuntu系统维护秘籍：备份步骤详解，保护你的劳动成果！

Linux系统不哭：高效备份与快速恢复方案

Ubuntu系统安全大计，备份技巧大公开

GHOST教程：系统备份和还原，小白也能变成高手！

Linux备份与恢复必修课：SWF文件安全策略从入门到精通

Exploring the Finest Accommodations: A Comprehensive Guide to Ruston LA Hotels

The Enchanting Experience of ScaliniTella NYC: A Culinary Gem in the Heart of Manhattan

Exploring the Exquisite Aloft Chicago O'Hare: A Blend of Modern Luxury and Convenience

A Culinary Journey: Discovering the Finest Dining Experiences in Waco, TX

A Culinary Journey: Discovering the Finest Dining Experiences in Athens, GA

电脑设备管理器在哪里？一次让我抓狂又兴奋的寻找经历

与GWX的持久战：一段关于Windows10升级弹窗的私人记忆

以管理员身份运行：那些年我们追过的权限与踩过的坑