![](https://img-blog.csdnimg.cn/20201014180756754.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
精确一致性
文章平均质量分 85
weixin_45626756
这个作者很懒,什么都没留下…
展开
-
ClickHouse基于全局字典与物化视图的精确去重方案
clickhouse具有bitmap, 但只支持int, 实测表明groupBitmap()这个agg比直接的count(distinct x)计算要快至少一倍以上, 按之前druid中的测试经验表明, 全局字典编码后的bitmap的查询性能也远远比普通bitmap好。通过物化视图对bitmap构建groupBitmapState的中间存储状态, 通过预计算bitmap的并集能减少查询的开销。 并且物化视图的行数远比原始表行数少, 除了bitmap以外的sum/max/min/avg等计算耗时也呈倍数原创 2021-06-13 12:18:27 · 1374 阅读 · 0 评论 -
Clickhouse数据实时去重
ck中去重主要是借助ReplacingMeregeTree引擎,它能够在合并part的时候将主键(既排序键)相同的记录只保留一条,但是使用的过程中存在两个问题:数据是在分区part合并的时候去重的,所以要实现全局去重,必须保证主键相同的记录在一个节点同一个分区上。ReplacingMergeTree引擎的merge是后台线程不定期触发执行的,时机是不可控的,所以并不能保证多久后不会出现重复数据,正对实时实时性高的用户不瞒住需求。目前三种解决方案方案一:ReplacingMergeTree+定时脚原创 2021-06-24 11:30:04 · 7529 阅读 · 0 评论