1.残差的思想都是去掉相同的主体部分,从而突出微小的变化
2.Batch Normalization
3.关于padding = same解释:http://blog.sina.com.cn/s/blog_53dd83fd0102x356.html
4.resnet网络结构
5. Adam (Kingma and Ba, 2014) 是一种学习率自适应的优化算法,如图所示。 “Adam’’ 这个名字派生自短语 “adaptive moments’’。早期算法背景下,它也许最好被看作结合 RMSProp 和具有一些重要区别的动量的变种。首先,在 Adam 中,动量直接并入了梯度一阶矩(指数加权)的估计。将动量加入 RMSProp 最直观的方法是将动量应用于缩放后的梯度。结合缩放的动量使用没有明确的理论动机。其次, Adam 包括偏置修正,修正从原点初始化的一阶矩(动量项)和(非中心的)二阶矩的估计(算法 8.7 )。 RMSProp 也采用了(非中心的)二阶矩估计,然而缺失了修正因子。因此,不像 Adam,RMSProp 二阶矩估计可能在训练初期有很高的偏置。Adam 通常被认为对超参数的选择相当鲁棒,尽管学习率有时需要从建议的默认修改。
6.残差结构:
(上:适用于18、34层;下:适用于50,101层)
7.代码参考:https://github.com/WZMIAOMIAO/deep-learning-for-image-processing
我自己跑完的模型链接:https://pan.baidu.com/s/1HZBptIWzEfL5zlGlmxYzMQ
提取码:mon9