ReplacingMergeTree

ReplacingMergeTree是ClickHouse中的表引擎,用于在数据合并时去除重复记录。去重功能在后台合并过程中自动执行,且仅在分区内部进行。表的主键不提供唯一性约束,但通过OrderBy字段和版本字段决定保留哪些重复数据,通常保留版本值最大或最后插入的记录。在手动触发最终合并后,可以看到去重效果。
摘要由CSDN通过智能技术生成


ReplacingMergeTree 是 MergeTree 的一个变种,它存储特性完全继承 MergeTree,只是多了一个去重的功能。 尽管 MergeTree 可以设置主键,但是 primary key 其实没有唯一约束的功能。 如果你想处理掉重复的数据,可以借助这个 ReplacingMergeTree。

去重时机

数据的去重只会在合并的过程中出现。 合并会在未知的时间在后台进行, 所以你无法预先作出计划。有一些数据可能仍未被处理。

去重范围

如果表经过了分区,去重只会在分区内部进行去重,不能执行跨分区的去重。所以 ReplacingMergeTree 能力有限, ReplacingMergeTree 适用于在后台清除重复的数据以节省空间,但是它不保证没有重复的数据出现。
➢ 案例演示
创建表

create table t_order_rmt(
id UInt32,
sku_id String,
total_amount Decimal(16,2) ,
create_time Datetime
) engine = ReplacingMergeTree(create_time)
partition by toYYYYMMDD(create_time)
primary key (id)
order by (id, sku_id);

ReplacingMergeTree() 填入的参数为版本字段,重复数据保留版本字段值最大的。
如果不填版本字段,默认按照插入顺序保留最后一条。
◼ 向表中插入数据

insert into t_order_rmt values
(101,'sku_001',1000.00,'2020-06-01 12:00:00') ,
(102,'sku_002',2000.00,'2020-06-01 11:00:00'),
(102,'sku_004',2500.00,'2020-06-01 12:00:00'),
(102,'sku_002',2000.00,'2020-06-01 13:00:00'),
(102,'sku_002',12000.00,'2020-06-01 13:00:00'),
(102,'sku_002',600.00,'2020-06-02 12:00:00');

◼ 执行第一次查询

hadoop102 :) select * from t_order_rmt;

在这里插入图片描述
◼ 手动合并

OPTIMIZE TABLE t_order_rmt FINAL;

◼ 再执行一次查询

hadoop102 :) select * from t_order_rmt;

在这里插入图片描述
➢ 通过测试得到结论
◼ 实际上是使用 order by 字段作为唯一键
◼ 去重不能跨分区
◼ 只有合并才会进行去重
◼ 认定重复的数据保留,版本字段值最大的
◼ 如果版本字段相同则按插入顺序保留最后一笔

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值