Caffe 源码 - BatchNorm 层与 Scale 层

最新推荐文章于 2024-06-24 22:35:17 发布

AIHGF

最新推荐文章于 2024-06-24 22:35:17 发布

阅读量1.8w

点赞数 5

分类专栏： CaffeLayer Caffe Caffe 文章标签： Caffe

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zziahgf/article/details/78843350

版权

batch norm layer & scale layer

简述

Batch Normalization 论文给出的计算：

前向计算：

后向计算：

BatchNorm 主要做了两部分：

[1] 对输入进行归一化， $x_{norm} = \frac{x - \mu}{\sigma}$ ，其中， $\mu$ 和 $\sigma$ 是计算的均值和方差；—— 对应 Caffe BatchNorm 层
[2] 归一化后进行缩放和平移，得到输出 $y = \gamma \cdot x_{norm} + \beta$ . —— 对应 Caffe Scale 层

Scale层设置bias_term=True，即对应于 $\beta$ .

Caffe BatchNorm 层的训练，根据从总样本中的 mini-batch 个样本，进行多次前向训练，每次计算都会考虑已经计算得到的 mean 和 variance.

前向计算

Caffe 实现中，不是将每次计算的 mean 和 variance 的结果简单累加，而是通过一个因子(一般小于 1 的变量) 把前一次计算的 mean 和 variance 的作用逐渐较少，再加上本次计算的 mean 和 variance，作为最终的结果. 即滑动平均(Moving Average)的方式.

其过程如下：

$S_{t-1}$ - 前一次 mini-batch 计算的 mean；

$Y_{t}$ - 本次 mini-batch 计算的 mean；

$\lambda$ - 滑动平均因子， moving_average_fraction

Forward 中，

[F1] - 滑动系数， $s_{new} = \lambda s_{old} + 1$

[F2] - 均值， $\mu _{new} = \lambda \mu _{old} + \mu$

[F3] - 方差， $\sigma _{new} = \lambda \sigma _{old} + m\sigma$ ，其中， $m > 1，则 m = \frac{m-1}{m}$

Caffe 源码未加参数 $\gamma$ 和 $\beta$ .
反向计算

对输入的梯度进行计算，没有参数 $\gamma$ 和 $\beta$ .

方差的梯度计算：

∂L∂σ=∑ni=0∂L∂yi⋅∂yi∂σ=∑ni=0∂L∂yi⋅(

最低0.47元/天解锁文章

关注

5
点赞
踩
27

收藏

觉得还不错? 一键收藏
1
评论
Caffe 源码 - BatchNorm 层与 Scale 层

batch norm layer &amp; scale layer简述Batch Normalization 论文给出的计算：前向计算：后向计算：BatchNorm 主要做了两部分：[1] 对输入进行归一化，xnorm=x−μσxnorm=x−μσx_{norm} = \frac{x - \mu}{\sigma}，其中， μμ\mu 和 σσ\sigma 是...
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。