caffe中BN层

最新推荐文章于 2024-06-04 21:48:28 发布

zhangxiangweide

最新推荐文章于 2024-06-04 21:48:28 发布

阅读量2k

点赞数

分类专栏： caffe

本文链接：https://blog.csdn.net/zhangxiangweide/article/details/79167351

版权

12 篇文章 0 订阅

订阅专栏

Batch Normalization:

layer {

name: "bn1"

type: "BatchNorm"

bottom: "conv1"

top: "bn1"

batch_norm_param {

use_global_stats: false

}

use_global_stats:如果为真，则使用保存的均值和方差，否则采用滑动平均计算新的均值和方差。该参数缺省的时候，如果是测试阶段则等价为真，如果是训练阶段则等价为假。

注意：训练的时候，将BN层的use_global_stats设置为false，然后测试的时候将use_global_stats设置为true，不然训练的时候会报“NAN”或者模型不收敛。

法一：
说明训练不收敛了, 学习率太大，步子迈的太大导致梯度爆炸等都是有可能的，另外也有可能是网络的问题，网络结构设计的有问题。

法二：

1. 数据归一化（减均值，除方差，或者加入normalization,eg:BN、L2norm）
2.更换参数初始化方法（对于CNN，一般用xavier或者msra的初始化方法）
3.减小学习率、减小batchsize或者加入gradient clipping

4.减少整体学习率，增加网络层数；

在超分辨率领域，对图像使用BN层的话，如果只针对单一X2或者X3或者X4倍分辨率时候，不使用BN层效果更好，如果数据集中同时包含x2，x3，x4倍分辨率数据，那么加上BN层效果更好

关注

专栏目录