参考链接
[1] 【Q&A】Python代码调试之解决Segmentation fault (core dumped)问题
[2] Segmentation fault (core dumped)错误常见原因总结
python报错
下面是在服务器上跑yolov3工程出现的段错误(segmentation fault)问题。YOLOV3工程链接。
pycharm报错界面
报错 Process finished with exit code 139 (interrupted by signal 11:SIGSEGV)
terminal报错界面
报错 Fatal Python error : Segmentation faul
排查段错误的方法
通过上面的报错可以发现,出现段错误,没有任何提示信息。而一般段错误会多为内存不当操作造成,可能会是空指针、野指针的读写操作,数组越界访问,破坏常量等问题。解决段错误最好的办法就是找到段错误的代码。可以通过以下两种方法排查。
faulthandler库
使用方法一
在源代码中添加以下两行代码。
import faulthandler
# 在import之后直接添加以下启用代码即可
faulthandler.enable()
# 后边正常写你的代码
使用方法二
直接在运行python代码的命令行中添加“-X faulthandler”,这样不需要改源代码。
python -X faulthandler your_script.py
效果
可见添加了faulthandler,会指出报错的位置,即可根据位置排查。
使用gdb
gdb是很常用的查找段错误的工具,不单单是查找python的出现段错误。
使用方法
## 启动gdb
gdb python
(gdb) run script.py
## wait for segfault ##
(gdb) backtrace
## stack trace of the py code
(gdb) bt
该指令能更简约得指出错误的位置,如下图所示,错误from from /lib64/libcuda.so.1和from /lib64/ld-linux-x86-64.so.2。同参考文献[1]中类似,可能是因为torch和cuda的版本不对应导致,因此进一步排查torch和cuda版本。
排查torch和cuda版本对应
torch版本
requirements.txt
一看torch版本为2.2.1,pip install时采用了torch>=1.8.0。问题大概率来自这,下一步将torch版本下降的torch==1.8.1。如下图所示,重新运行detect.py运行成功。