训练FASTER-RCNN趣谈

训练FASTER-RCNN时,参考了 https://github.com/CharlesShang/TFFRCNN,于是跳进了一个大坑。。。
作者是在前人的基础上改的,难免有bug,但是我没想到这个bug竟然会让我ubuntu系统重启。详细说来如下:
  1. 我先按照作者要求,demo尝试了可以,train_net经过修改make.sh文件,也可以运行了。但是我发现,如果restore=1(默认),程序是不装载VGGnet_train.npy,假如强制修改如下,程序可以运行,但是程序是没有任何基础在运行的,这就导致训练结束后效果很差。
  2. 查看源程序,要想加载预训练参数,须将restore=0,即可以将程序添加为args.restore=0,但是问题来了,机子在训练时出现崩溃,现象如下:
    1. 刚开始时系统重启,显示出现电涌。我把电涌保护开关关掉,照样重启。我以为是电源质量不行,用的显卡是TITAN X,cpu 4000HZ,训练时功耗很大。当时装的电源是2015年的500W电源,按说还是可以的。
    2. 经历过几次死机后,发现硬盘坏了。因为是突然重启,这样次数过多后必然损伤硬盘。
    3. 没办法,只能找块新的硬盘,重装系统了(这时我以为是硬盘坏了,导致的系统重启,当时的现象是,机子运行其他程序没事,一训练就会重启->其是是训练这个程序时重启)。重装了一遍,砸电脑的心都有了。
    4. 重装好系统后继续训练https://github.com/CharlesShang/TFFRCNN的程序,继续设置restore=0,,,,又死机了。。。砸电脑,师兄给拦住了。。。。于是打算买个新的电源,600W。
    5. 后来我想了下,也可能是程序的事,于是跑了一下以前的程序,每个都能正常运行,GPU使用率百分之八九十以上,没问题啊,我开始怀疑是程序的事了。
    6. 网上找了另外一个程序https://github.com/smallcorgi/Faster-RCNN_TF,完全没有问题。惊喜。
    7. 不甘心,将https://github.com/CharlesShang/TFFRCNN的程序尝试了下Resnet50_train,惊喜,可以运行。
    8. 找到出问题的地方了。VGGnet_train的预训练模型可能有问题,反正restore=0时会炸。
  3. 2017.5.18 修改 尝试一下其他的程序,也有可能出现机子重启的情况。后来还是考虑是不是机子自身配置的问题,GPU功耗一高,电源性能下降,导致重启。后来换了个多路600W电源,果然程序可以再次运行了。在此,向https://github.com/CharlesShang/TFFRCNN道歉,即使用VGG+restore=0,一样可以训练了。
当然,有遇到以上问题者并能给出合理解释的可以联系我,感激不尽。
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 5
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值