ResNet(residual)
CNN主干网络换成残差学习residual learning
residual connectuon在做什么:
一个残差块:之前学到了x,新加的层就不再从头开始学,直接学h(x)-x (差)。最后输出 深的F(x)加上浅的x
输出和输入怎么匹配上:
1、添加额外的0,使得他们能够相加。
2、使用投影:使用1*1的卷积层(空间维度上不做任何东西,在通道维度上改变),stride=2,使得输出通道是输入的2倍(因为在Resnet中输出变2倍,输入的高和宽通常会被减半)
短边随机放到256和480:随机性更多一点
第四章:实验
FLOPs:
如果是更高层训练:先把等式降维:通道数256->64,再投影回去(bottleneck)
这样两个算法复杂度差不多了。
如果没学到东西,最后的那些层是可能没有在用。如1000层可能只有前100层有用,后面基本意味着0 。所以需要手动加入这个结果使他更容易训练出来。
SGD精髓:梯度够大,能一直跑,最后结果回比较好。