SummingMergeTree

文章介绍了ClickHouse的SummingMergeTree引擎在处理只关心汇总聚合结果场景的优势。通过创建预聚合表,可以减少存储开销和查询时的临时聚合计算。示例展示了创建表、插入数据和查询的过程,强调了手动合并的重要性。虽然可以直接使用SQL获取汇总值,但可能包含未聚合的明细,因此建议在查询时仍使用聚合函数以确保准确性。
摘要由CSDN通过智能技术生成

基本介绍

对于不查询明细,只关心以维度进行汇总聚合结果的场景。如果只使用普通的MergeTree 的话,无论是存储空间的开销,还是查询时临时聚合的开销都比较大。
ClickHouse 为了这种场景,提供了一种能够“预聚合”的引擎 SummingMergeTree。

案例演示

创建表

create table t_order_smt(
 id UInt32,
 sku_id String,
 total_amount Decimal(16,2) ,
 create_time Datetime 
) engine =SummingMergeTree(total_amount)
 partition by toYYYYMMDD(create_time)
 primary key (id)
 order by (id,sku_id );

插入数据

insert into t_order_smt values
(101,'sku_001',1000.00,'2020-06-01 12:00:00'),
(102,'sku_002',2000.00,'2020-06-01 11:00:00'),
(102,'sku_004',2500.00,'2020-06-01 12:00:00'),
(102,'sku_002',2000.00,'2020-06-01 13:00:00'),
(102,'sku_002',12000.00,'2020-06-01 13:00:00'),
(102,'sku_002',600.00,'2020-06-02 12:00:00');

执行第一次查询

在这里插入图片描述

手动合并

OPTIMIZE TABLE t_order_smt FINAL;

再执行一次查询

在这里插入图片描述##

结论

◼ 以 SummingMergeTree()中指定的列作为汇总数据列
◼ 可以填写多列必须数字列,如果不填,以所有非维度列且为数字列的字段为汇总数
据列
◼ 以 order by 的列为准,作为维度列
◼ 其他的列按插入顺序保留第一行
◼ 不在一个分区的数据不会被聚合

开发建议

设计聚合表的话,唯一键值、流水号可以去掉,所有字段全部是维度、度量或者时间戳

问题

能不能直接执行以下 SQL 得到汇总值

select total_amount from XXX where province_name=’’ and 
create_date=’xxx’

不行,可能会包含一些还没来得及聚合的临时明细
如果要是获取汇总值,还是需要使用 sum 进行聚合,这样效率会有一定的提高,但本身
ClickHouse 是列式存储的,效率提升有限,不会特别明显。

select sum(total_amount) from province_name=’’ and create_date=’xxx’
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值