借助在跨国公司的研发经历,我得以带着大家漫游一次产品质量之旅。然而,知道并非做到,看似触手可及,但又好似隔着万水千山。明明知道采用那些策略可以有效的提升产品质量,然而现实世界中的自己却长时间无动于衷。
幸好,上天送给我一个契机。一次,某产品的运行现场出现随机异常复位,问题比较棘手,大家一筹莫展。我脑袋中灵光一闪,为何不增加异常dump信息来协助分析问题呢?
我快速行动起来,发现我们的嵌入式设备异常复位有如下原因:
其中包含了看门狗、时钟、电源、晶振、软件触发复位、调试等多种复位原因。我快速写了一段异常处理程序,记录下了异常时的复位值和PC指针后,我们发现是因为非法地址访问导致的异常。进一步检测系统符号表,发现异常时PC指针定位到了如下函数内部:
/* 搜帧函数 */
DWORD search(T103 *me, DWORD dwLen)
{
DWORD i;
BYTE *pBuf
/* 过滤掉帧头可能存在的干扰数据,定位帧头 */
pBuf = me->pRxd;
for (i = 0; i < dwLen - 4; i++)
{
if (pBuf[i] == START_FIX && pBuf[i + 4] == FRAME_END) /* 异常时pc指针指向 */
...
}
...
}
定位过程如下图所示:
上面这段代码是IEC60870-5-103的搜帧函数。在串口通讯时,因为硬件干扰等原因,会导致帧头或帧尾存在1~2个字符的乱码(现场经验,很少超过4个),上述这段代码用于跳过帧头的乱码。
测试时我们发现,该现场通讯电缆质量差,距离长,而且经过一些强干扰区域,通讯