背景
今天做数据同步时,需要进行先删除数据再写数据这一步操作。但是执行删除数据sql后,数据没被删掉,仍然还可以查询到。但执行删除语句返回的结果并没有报错。
// 删除代码
alter table ${db}.${table} on cluster ${cluster} delete where event_date between '2021-05-05' and '2021-06-03'
// 查询代码
select * from ${db}.${table} where event_date between '2021-05-05' and '2021-06-03'
处理过程
1、开始网上各种找clickhouse的资料。搜了一圈之后,又get了新知识!
2、clickhouse这种通过alter方式实现更新、删除的操作,是异步执行,被称为mutation。这时我反应过来了,我把删除的代码执行了,可能请求给到服务端,但还没被执行。
3、clickhouse的system.mutations这个表用于记录所有的mutations记录,里面一个关键字段:is_done。用于记录该mutation是否执行。(0表示未执行,1表示已执行)
4、查了一下自己数据库,情况如下。发现从20:30:58之后的is_done都未0。删除操作都还未被执行。
// 查询mutations表
select * from system.mutations order by create_time desc
可以到服务器/var/log/clickhouse-server/目录下看clickhouse相关报错日志,或许可以找到根本原因。但由于博主进不去相关的服务器,看不了,很尴尬没找到根本原因。
5、杀掉相关的阻塞的mutations,之后再次查询mutations表,确实相关mutations都没了,阻塞的进程也没了。
// 类似于杀进程
kill mutation where database='${db}' and table='${table}'
6、有看见其他博主的经验,他们杀掉mutations后,再执行delete操作就没问题了。但我kill完之后,还是不行。
7、最后,走投无路,暴力删表,重建,问题没再复现,暂时性解决了。如果有踩过相关坑的,欢迎交流讨论。