简单剖析OLAP异域猛兽——ClickHouse设计思路

最新推荐文章于 2023-10-17 16:06:58 发布

大数据_苡~

最新推荐文章于 2023-10-17 16:06:58 发布

阅读量413

点赞数 1

分类专栏： 005-数据库文章标签：数据库 big data olap

伟绩平凡起，才子复诗流

本文链接：https://blog.csdn.net/weixin_44586883/article/details/120847162

版权

005-数据库专栏收录该内容

15 篇文章

订阅专栏

ClickHouse是一个专为OLAP设计的高性能数据库系统，由Yandex开发，适合大数据实时分析。其特点包括列式存储、数据排序、分布式查询、预聚合等，提供快速查询能力。与HBase相比，ClickHouse更适合场景2类型的统计分析。尽管ClickHouse在某些方面如事务支持和细粒度查询存在不足，但其速度和灵活性使其在大数据分析领域具有优势。Kylin作为OLAP引擎，预聚合出色但不支持自定义分析。ClickHouse的优点包括快速扫描、分布式处理和SQL支持，适合结构化日志和时间序列数据的处理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

ClickHouse 是一个用于联机分析 (OLAP) 的列式数据库管理系统 (DBMS)。

异域是因为它来自俄罗斯，Yandex 公司，这家公司是俄罗斯本土搜索引擎企业，原本是为了分析自家的 Web 流量而开发的一款产品，后来经过演变，逐渐形成为现在的 ClickHouse，全称是：Click Stream,Data WareHouse

ClickHouse 官网

它具有 ROLAP、在线实时查询、完整的 DBMS 功能支持、列式存储、不需要任何数据预处理、支持批量更新、拥有非常完善的 SQL 支持和函数、支持高可用、不依赖 Hadoop 复杂生态、开箱即用等许多特点。

今天我们来剖析ClickHouse 设计思路

先看看这下面的2个SQL

-- 场景1 根据键key找到值
select name from table where id = 1

-- 场景2 统计平均金额
select city,avg(amount) from table group by city

对于上面这两种场景，

数据量不大，而且又是结构化数据，可以用MySQL存储和分析

数据量大的话，对于场景1来说可以使用HBase来解决。

但是大数据量情况下场景2需求特别多，那么需要设计一个专门用来做分析的存储计算引擎解决分

析的低效率问题。

海量数据中，如果能够快速的把待搜寻的数据范围降低到原来的1/n，然后在结合索引或者热点数

据放在内存等思想，就能实现高效率的查询了

那么一个专门用来做 OLAP 分析的存储引擎该如何设计呢？如何在海量数据中，针对大量数据进

行查询分析呢？一些常见的方案和手段如下：

1、列式存储+字段类型统一

2、列裁剪

3、数据排序

4、数据分区分片+ 分布式查询

5、预聚合

6、利用CPU特性：向量化引擎，

7、构建多种不同索引：主键索引+二级索引+位图索引+布隆索引

8、支持近似计算 pv

9、定制引擎：多样化的存储引擎满足不同场景的特定需要

10、多样化算法选择

具体设计思路：单挑记录的增删改等操作，通过数据的横向划分，做到数据操作的快速定位

在海量的数据查询分析中，一般就是针对某些列做分析既然并不是全部列，

那么把数据做纵向切分把表的数据按照列的单独存储，那么在做分析的时候，同样可以快速把待查

询分析的数据总理降低到原来的1/n

说到OLAP，Kylin也是适合于OLAP场景的一个分布式分析引擎， Kylin 把预聚合发挥到极致，但是它的缺点：