注:问题已经解决,解决的博文已经写好,等代码回馈 clickhouse 社区后会将博文发出来。
问题
使用 clickhouse 遇到问题,有一台机器 clickhouse 出问题,只要他存在,其他机器都没法写,全都卡住,哪怕重启也没用。
只有屏蔽这台机器后,重启其他机器才能正常写入。
进行调试
调试
(b站上有视频教如何安装,很简单)
下载并安装 clickhouse server,clickhouse client
拉取 clickhouse-cpp 代码
clickhouse-client
连接上默认的 localhost:9000,用户是 default,密码为空
select * from system.clusters
展示你所有的集群信息
show databases
展示你所有数据库的名字
create table table_name(TimeStamp UInt64) engine=memory
创建测试表,存储时间戳,使用内存引擎
show tables from db_name
展示该数据库的所有表名
select distinct name from system.columns where database=‘db_name’ and table=‘table_name’
展示指定数据库中某张表所有字段的名字
insert into table_name values( , , ) , ( , , ) ……
插入数据
写一份程序并运行,让程序不断写数据入clickhouse,中止代码的运行,看看数据是否正常写入 clickhouse
alter table table_name delete where 1
清空表里的数据
各部分正常使用,开始测试。
让程序一直写入数据,在写入数据时 kill 掉 clickhouse server 看看是否会出问题
发现写入数据的程序卡住几秒后就退出
server 自动重启
client 在 server 重启后依然能够发送操作请求并获得应答信息
并没有长时间卡住的问题,无法复现当时的情况。
改变调试思路,直接看 clickhouse-cpp 中关于 tcp 连接、协议等的代码,了解充分后再进一步思考问题可能发生的位置。
原因
卡住时因为卡在 recv 了,需要用事件来处理,或者直接改客户端代码,设置一个写入超时时间,socket timeout