最近解决了一个客户的问题,support只发回来一个报错的函数名,此函数成百个调用者,怎么办?
一般遇到这种问题,首先要明确:
1. 客户是否能重现
2. 重现的频率
这些都决定着开发调查的方向。
我们很幸运,客户很容易100%重现。我们可以编译一个包含很多打印信息的diagnostic build发给客户,但这样一来一回好多天过去了,所以我准备了一个gdb script(research.gdb):
#set page off 以避免需要不停的按回车
set pagination off
b 问题函数名
#成功break后执行下面的回调命令
commands
shell date
where
gcore /tmp/udtcoredump
shell mv /tmp/udtcoredump /tmp/udtcoredump_$(date +%Y%m%d%H%M%S)
c
end
c
运行办法很简单:gdb -p <pid_of_problematic_process> -x research.gdb
客户只需要重现一下,就会
1. 打印调用栈
2. 产生coredump,并命名为/tmp/udtcoredump_时间
后续:
1. 拿到调用栈后,我们立马明白了此BUG是怎样触发的。
2. 我扩大了测试范围,又额外测出了4个BUG。