当ClickHouse合并数据部分时,VersionedCollapsingMergeTree(版本折叠合并树)引擎会删除具有相同主键(其实主要是建表语句的ORDER BY字段)和版本,但Sign值不同的一对行。行的顺序并不重要(也就是会删除sign值1和 -1 这一对的数据)。注意,同时进行多条数据的插入时也会对sign值不一样的一对数据进行删除
(1和-1只是状态,无所谓新的是1还是-1,2、3、4等也行)
如果sign=1比sign=-1 的数据多一行,则保留时间最新的一行sign为1的数据(最新一行为sign=1)
如果sign=-1比sign=1 的数据多一行,则保留时间最老的一行sign为-1的数据(最新一行为sign=1,因为1只是状态,所以新增一行是-1则保留最新的一行sign为-1的)
如果sign=-1和sign=1 的数据行一样多,则相互抵消,什么也不保留(有时会因为某些问题未进行折叠,需要手动折叠)
当ClickHouse插入数据时,它会按主键对行进行排序。如果Version列不在主键中,ClickHouse将其隐式添加到主键作为最后一个字段并使用它进行排序。
以下可以用来进行表引擎的测试
--建表
CREATE TABLE MCSCS
(
UserID UInt64,
PageViews UInt8,
Duration String,
DQSJ DateTime,
Sign Int8,
Version UInt8
)
ENGINE = VersionedCollapsingMergeTree(Sign, Version)
ORDER BY (UserID,PageViews);
--清表数据
TRUNCATE TABLE MCSCS;
--进行新增测试
INSERT INTO MCSCS select * from MCSCS;
INSERT INTO MCSCS VALUES (123453212345, 5, 'sacds ',now(), -1, 1);
INSERT INTO MCSCS VALUES (123453212345, 5, 'sacds ',now(), 1, 1);
INSERT INTO MCSCS VALUES (123453212345, 5, 'sacds ',now(), 1, 1),(123453212345, 5, 'sacds ',now(), -1, 1);
INSERT INTO MCSCS VALUES (123453212345, 5, 'sacds ',now(), -1, 1),(123453212345, 6, '二 ',now(), 1, 2);
--查看表数据
select * from MCSCS ;
SELECT
UserID,
sum(PageViews * Sign) AS PageViews,
Duration,
DQSJ,
Version
FROM MCSCS
GROUP BY UserID,Duration, Version,DQSJ
HAVING sum(Sign) > 0;
--对表进行折叠
optimize table MCSCS;