Lecture 5 Sequence to sequence

Lecture 5: Sequence to sequence

Quick Introduction of Batch Normalization

Changing Landscape

我们认为 error surface \text{error surface} error surface 较为崎岖的时候,模型较难训练 —— batch normalization 的想法是“将山铲平”。

如下图所示,在 w 1 w_1 w1 方向上斜率较小,而在 w 2 w_2 w2 方向上斜率较大,这时候模型较难训练,往往需要 adaptive learning rate \text{adaptive learning rate} adaptive learning rate Adam \text{Adam} Adam 的帮助;而本文主要关注于更改 error surface \text{error surface} error surface 的做法。

image-20220929103243275

如下图所示,有一个较为简单模型。那么,该模型在什么情况下会出现上述模型不好训练的情况?

image-20220929103443605

如下图所示,当我们仅改变 w 1 w_1 w1 ,且输入 x 1 x_1 x1 的值较小时,对 y ,   e ,   L y,\ e,\ L y, e, L 的改变都是小的。

image-20220929103934077 image-20220929104132470

如上图所示,而当我们同时改变 w 2 w_2 w2,且输入 x 2 x_2 x2 的值较大时,对 y ,   e ,   L y,\ e,\ L y, e, L 的改变都是大的。也就是,在线性模型中,当不同维度的输入规模差距较大时,会出现上述模型不好训练的情况。—— 一个很直观想法:让不同维度的输入处在同一数值范围。

Feature Normalization

image-20220929105121687

Considering Deep Learning

image-20220929113026758

在各个特征 x x x 输入到网络之前,需要进行 feature normalization \text{feature normalization} feature normalization 得到 x ~ \tilde x x~。同样,在输入到更深层网络之间的输出往往也需要 normalization \text{normalization} normalization(如果激活函数 s i g m o i d sigmoid sigmoid,那么往往在其前进行 normalization \text{normalization} normalization)。那么如何对 z z z normalization \text{normalization} normalization 呢?

类似地,也进行求均值、标准差的操作,最后求出 z − s c o r e z-score zscore

image-20220929144620952 image-20220929145240481

对于一个很大的网络,不可能一次全部算出所有输入经过 normalization \text{normalization} normalization 后的值,而只能一个个 batch 地去计算,因此叫做 batch normalization \text{batch normalization} batch normalization

Batch Normalization

image-20220929150647784

在求出 z ~ \tilde z z~ 后,往往还做 z ^ = γ ⊙ z ~ + β \hat z=\gamma \odot \tilde z+\beta z^=γz~+β 的操作,以打破 z ~ \tilde z z~ 均值为 0 0 0 的限制, γ \gamma γ β \beta β 初始分别是全 1 1 1 和全 0 0 0 的向量。

Testing

在测试阶段或实际应用中,我们不一定拥有 batch \text{batch} batch 的信息 —— 计算 moving average \text{moving average} moving average

image-20220929160301248

How does Batch Normalization Help Optimization?

How Does Batch Normalization Help Optimization? (arxiv.org)

image-20220929161710779

To learn more

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值