前两天公司测试人员发现一个删除数据的job在开发环境中能3分钟左右删除完所需数据,大约200万条,而在测试环境速度不到10 rows/s.
最终这个问题的解决方法是在测试环境中,在目标表的子表中添加了一个索引,然后速度就跟开发环境差不多了。这里主要说一些查找的思路。
1. 刚开始开发环境也很慢,首先检查一下job的warning,发现表被锁着,然后用db2top监视发现有很多用户连着数据库,但没有发现有lock wait,也不管了,先断开其它用户试一下。重启job后发现速度就上去了。。。
2.后来在测试环境中,只有job连数据库,没有别的用户连接,不可能是被锁,所以开始检查测试环境的表的索引,目标表,其父表,子表,发现索引跟开发环境是一样的,然后reorg这些表后,runstatus。。。。还是没有作用
3.把job中的删除数据做成一个sql脚本,直接在数据库执行比较速度(怀疑不是数据库问题),发现直接执行,在开发环境的速度是测试环境的20倍左右。
4. 用db2advis -d $dbname -i $sqlfilename来让系统自动优化,里面提示了创建索引的方法,照着创建,然后执行第三步,发现两边的速度几乎相当,所以感觉速度起来了。
5. 再用job在测试环境测试,还是原来的速度。。。后来睡觉了,另一个DBA接着查找。
6.第二天告诉问题解决了,只是创建了一个索引,发现这个索引和我用db2advis得到的很像(命名方式上),只是有个列不一样,怀疑是他后来又执行了一次db2advis -d $dbname -i $sqlfilename得到的这个结果。