CNN 知识点总结

最新推荐文章于 2022-05-12 20:33:23 发布

leo_fighting

最新推荐文章于 2022-05-12 20:33:23 发布

阅读量323

点赞数

本文链接：https://blog.csdn.net/zhangliaobet/article/details/99630712

版权

Pooling layer 的作用
汇合层的引入是仿照人的视觉系统对视觉输入对象进行降维（降采样）和抽
象。在卷积神经网络过去的工作中，研究者普遍认为汇合层有如下三种功效：
1.特征不变性（feature invariant）。汇合操作使模型更关注是否存在某些特
征而不是特征具体的位置。可看作是一种很强的先验，使特征学习包含某
种程度自由度，能容忍一些特征微小的位移。
2.特征降维。由于汇合操作的降采样作用，汇合结果中的一个元素对应于原
输入数据的一个子区域（sub-region），因此汇合相当于在空间范围内做了
维度约减（spatially dimension reduction），从而使模型可以抽取更广范
围的特征。同时减小了下一层输入大小，进而减小计算量和参数个数。
3.在一定程度防止过拟合（overfitting），更方便优化。

小卷积核的作用
小卷积核（如 3 × 3）通过多层叠加可取得与大卷积核（如 7 × 7）
同等规模的感受野，此外采用小卷积核同时可带来其余两个优势：第一，由于
小卷积核需多层叠加，加深了网络深度进而增强了网络容量（model capacity)
和复杂度（model complexity）；第二，增强网络容量的同时减少了参数个数。

全零初始化
参数全为 0 时网络不同神经元的输出必然相同，相
同输出则导致梯度更新完全一样，这样便会令更新后的参数仍然保持一样的状态。

随机初始化
高斯分布
假设网络输入神经元个数为 n_in，输出神经元个数位 n_out，则服从高斯分布
的参数随机初始化为：
w = 0.001 * randn(n_in, n_out);

其中的高斯分布为均值为 0，方差为 1 的标准高斯分布。式中的“0.001”为控制参数量纲的因子，这样可使得参数期望
能保持在接近 0 的较小数值范围内.

the Xavier method
w = (0.001 * randn(n_in, n_out)) / sqrt(n);
其中， n 为输入神经元个数 n_in（有时也可指定为 (n_in+ n_out)/2）。
这样初始化的原因在于维持了输入输出数据分布方差的一致性
2015 He 等人提出改进——将非线性映射造成的影
响考虑进参数初始化中，他们提出原本 Xavier 方法中方差规范化的分母应为
sqrt(n/2) 而不是 sqrt(n)

均匀分布
the Xavier method
low = −sqrt(3/n); high = sqrt(3/n);
% The interval is [low,high].
rand_param = a + (b−a) .* rand(n_in, n_out);

the He method
low = −sqrt(6/n); high = sqrt(6/n);
% The interval is [low,high].
rand_param = a + (b−a) .* rand(n_in, n_out);
w = 0.001 .* rand_param;

预训练模型
除了直接随机初始化网络参数，一种简便易行且十分有效的方式则是利用预训
练模型——将预训练模型的参数作为新任务上模型的参数初始化。

leo_fighting

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
CNN 知识点总结

Pooling layer 的作用汇合层的引入是仿照人的视觉系统对视觉输入对象进行降维（降采样）和抽象。在卷积神经网络过去的工作中，研究者普遍认为汇合层有如下三种功效：1.特征不变性（feature invariant）。汇合操作使模型更关注是否存在某些特征而不是特征具体的位置。可看作是一种很强的先验，使特征学习包含某种程度自由度，能容忍一些特征微小的位移。2.特征降维。由于汇合操作的...
复制链接

扫一扫