故障剖析
文章平均质量分 93
专注于解剖工作中遇到的各种技术故障,并提供详细的排查过程和经验分离。
沉下心来学鲁班
擅长设计高性能、可扩展、结构优良的软件,并致力于在编程领域宏扬工匠精神。
展开
-
记一次达梦主备切换的问题调试过程
客户侧要求支持中间件sqlproxy支持达梦数据库的主备切换,但这个主备切换功能在开发版本上并不支持,它是商业版才有的功能,为此只能详细研究文档说明,以珍惜成本高昂的试错机会。至此,此问题最终用修改驱动的方式得到解决,基本思想是将连接类的错误都交给dataase/sql包里的连接池来处理,它内部会进行自动重试,这样上层应用不需要关心连接相关的异常。调试这类问题的难点可能就在于:驱动层的逻辑不是掌控在我们手里,包括驱动层的实现逻辑是否存在问题,我们也不得而知,我们能做的只是按照达梦的文档来不停的试参数。原创 2024-08-08 12:43:14 · 1077 阅读 · 0 评论 -
升级openai库导致的404错误排查记录
可以看出,在使用OpenAIEmbedding在进行向量嵌入时报的错,我们使用的是Azure部署的OpenAI服务,出现此错误一般是由于Azure Endpoint,Deployment,API Version,API Key,Model Version这几项信息中的某一项有问题。原创 2024-07-17 13:37:28 · 1516 阅读 · 0 评论 -
达梦DB重启后sql连接池无法自动响应
从这个代码可以看出,mysql驱动每次从连接池新拿出一个连接时,都会进行有效性检测,当检测到连接不可用时,会打印连接错误信息并将错误转换为driver.ErrBadConn返回。上面代码可以说明,连接池已经提供了完备的机制来处理连接错误,从连接池中取出的连接如果失效时会自动重试,必要时会直接创建新的连接,来保证sql请求不会因为连接失效而响应失败。sqlproxy使用的是database/sql中自带的连接池,达梦数据库重启了之后,sqlproxy中的连接池无法响应任何SQL,都报了如下错误。原创 2024-05-17 01:20:00 · 1103 阅读 · 0 评论 -
一次JSON序列化panic引发的死锁问题记录
整场会议的所有心跳请求都被阻塞,所以内存只升不降,接口大量60s响应超时,压测机被超时请求阻塞,最终表现为TPS很低;原创 2023-01-02 23:50:42 · 286 阅读 · 0 评论 -
一次Mac上假连接问题的追溯
前几天听一位客户端同事报Mac上切换网络时会出现假连接现象,需要服务器配合调整心跳策略,以减轻对用户的影响。听到这个现象挺好奇的,原因在于:据同事描述,有些切换网络的场景应用层是监听不到事件的,导致连接没有走重连逻辑。那具体什么场景监听不到呢?我主要测试了两个场景:前一个场景未发现问题,第二个场景复现了问题:当我从家里的wifi “一朵霸王花" 切到 手机热点”nova 7 SE 5G“时, 对应云会议的IM中出现了一个端发消息另一个端收不到的Case‘:*说明:上面第一个图是手机端在12:00发送了7原创 2022-06-22 00:14:29 · 300 阅读 · 0 评论 -
一次联合索引优化引发的思考
问题描述DBA在群里报产线DB有故障,数据库所在机器的CPU使用率高达95%, 短时间内报了500+条慢查询,其中出现最多的是下面一条SQL语句:产线出故障时,运维同学一般都是描述现象,一个现象要转换为可以具体排查的问题,往往需要做一些信息的确认和提取工作的。就这个问题来说,CPU占用率高是现象,DBA帮我们做了第一步的信息提取:发现一条慢SQL。但是这个问题还不够具体,比如:究竟是不是这条慢SQL导致了CPU高是需要确认的,另外这个慢SQL究竟有多慢也不知道,所以研发还需要做进一步的信息提取。原创 2022-05-21 09:30:13 · 256 阅读 · 0 评论 -
一次消息阻塞问题排查过程
最近产线环境偶发会出现用户收不到别人给他发送的IM消息,同事邀请我一起排查,现象是:他们的连接状态看着正常,自己能发送消息,但是收不到,退出重新登录能恢复,而且每次出现都是一大批消息,问题挺严重。知识铺垫在问题展开之前,有必要先介绍下公司的IM消息收发模型消息服务投递消息到指定的mq队列上; 每台长连接服务,从一个指定的mq队列上消费消息; 长连接服务维护了具体的终端连接池,拿到消息后,从池子里找到消息要投递的终端连接,通过网络IO将消息推出去; 客户端收到消息数据后,解析并显原创 2022-05-14 22:00:42 · 4035 阅读 · 0 评论 -
一次导致服务僵死的问题排查
QA同学在线下对直播服务做压测,要预先创建1500场活动,遇到的问题是:用30个并发,每个线程请求50次,创建到200多场时批量任务就开始卡住不动,服务呈现僵死状态原创 2023-10-23 21:18:18 · 94 阅读 · 0 评论