ReplacingMergeTree

最新推荐文章于 2024-03-29 23:24:00 发布

浊酒南街

最新推荐文章于 2024-03-29 23:24:00 发布

阅读量461

点赞数

分类专栏： # clickhouse 文章标签：数据库 java sql

本文链接：https://blog.csdn.net/weixin_43597208/article/details/130022812

版权

clickhouse 专栏收录该内容

9 篇文章 1 订阅

订阅专栏

ReplacingMergeTree是ClickHouse中的表引擎，用于在数据合并时去除重复记录。去重功能在后台合并过程中自动执行，且仅在分区内部进行。表的主键不提供唯一性约束，但通过OrderBy字段和版本字段决定保留哪些重复数据，通常保留版本值最大或最后插入的记录。在手动触发最终合并后，可以看到去重效果。

摘要由CSDN通过智能技术生成

去重时机

数据的去重只会在合并的过程中出现。合并会在未知的时间在后台进行，所以你无法预先作出计划。有一些数据可能仍未被处理。

去重范围

如果表经过了分区，去重只会在分区内部进行去重，不能执行跨分区的去重。所以 ReplacingMergeTree 能力有限， ReplacingMergeTree 适用于在后台清除重复的数据以节省空间，但是它不保证没有重复的数据出现。
➢ 案例演示
创建表

create table t_order_rmt(
id UInt32,
sku_id String,
total_amount Decimal(16,2) ,
create_time Datetime
) engine = ReplacingMergeTree(create_time)
partition by toYYYYMMDD(create_time)
primary key (id)
order by (id, sku_id);

ReplacingMergeTree() 填入的参数为版本字段，重复数据保留版本字段值最大的。
如果不填版本字段，默认按照插入顺序保留最后一条。
◼ 向表中插入数据

insert into t_order_rmt values
(101,'sku_001',1000.00,'2020-06-01 12:00:00') ,
(102,'sku_002',2000.00,'2020-06-01 11:00:00'),
(102,'sku_004',2500.00,'2020-06-01 12:00:00'),
(102,'sku_002',2000.00,'2020-06-01 13:00:00'),
(102,'sku_002',12000.00,'2020-06-01 13:00:00'),
(102,'sku_002',600.00,'2020-06-02 12:00:00');