神经网络与深度学习作业12：第七章课后题

最新推荐文章于 2024-08-09 15:31:03 发布

红肚兜

最新推荐文章于 2024-08-09 15:31:03 发布

阅读量303

点赞数 1

文章标签：深度学习神经网络

本文链接：https://blog.csdn.net/weixin_63539289/article/details/128274905

版权

习题7-1 在小批量梯度下降中,试分析为什么学习率要和批量大小成正比.
习题7-2在Adam算法中,说明指数加权平均的偏差修正的合理性（即公式(7.27)和公式(7.28)).
习题7-9证明在标准的随机梯度下降中,权重衰减正则化和l,正则化的效果相同.并分析这一结论在动量法和 Adam算法中是否依然成立.
第七章总结

习题7-1 在小批量梯度下降中,试分析为什么学习率要和批量大小成正比.

在小批量梯度下降中有：
$g_t(θ)= \frac{1}{K}∑_{(x,y)ϵS_t}\frac{∂L(y,f(x;θ))}{∂θ}$ $θ_t=θ_{t−1}−αg_t$
其中 $g_t = \frac{δ}{K}$ ,则有： $θ_t = θ_{t-1}-\frac{\delta }{K}α$
因此我们要使得参数最优，则 $\frac{\alpha}{K}$ 为最优的时候的常数，故学习率要和批量大小成正比。

习题7-2在Adam算法中,说明指数加权平均的偏差修正的合理性（即公式(7.27)和公式(7.28)).

在Adam算法中：
$M_t = β_1M_{t-1} + (1-β_1)g_t$ $G_t = β_2G_{t-1} + (1-β_2)\bigodot g_t$
当 $β_1 \rightarrow 1,β_2 \rightarrow 1$ 的时候时:
$lim_{\beta _1\rightarrow 1}M_t = M_{t-1}$
$lim_{\beta _2\rightarrow 1}G_t = G_{t-1}$
因此可以发现此时梯度消失，因此指数加权平均需要进行偏差修正。

习题7-9证明在标准的随机梯度下降中,权重衰减正则化和l,正则化的效果相同.并分析这一结论在动量法和 Adam算法中是否依然成立.

在这里插入图片描述
证明：
设 $L_t$ 为第 $t$ 步的损失函数，有 $L_t = L_0 + \frac{λ}{2}||w||^2$ ( $l_2$ 正则化)。
求导：
$\frac{\partial L_t}{\partial w} = \frac{\partial L_0}{\partial w} + λw$ $\frac{\partial L_t}{\partial b} = \frac{\partial L_0}{\partial b}$
标准的随机梯度下降： $\leftarrow w - \eta( \frac{\partial L_0}{\partial w} + λw)=(1-\eta λ)w - \eta\frac{\partial L_0}{\partial w}$
同理有： $\leftarrow b - \eta\frac{\partial L_0}{\partial b}$
我们令 $\etaλ = β$ ,就可以推出： $θ_t \leftarrow (1-β)θ_{t-1} - αg_t$

分析这一结论在动量法和 Adam算法中是否依然成立.
$L_2$ 正则化梯度更新的方向取决于最近一段时间内梯度的加权平均值。当与自适应梯度相结合时（动量法和Adam算法）， $L_2$ 正则化导致导致具有较大历史参数 (和/或) 梯度振幅的权重被正则化的程度小于使用权值衰减时的情况。

第七章总结

在这里插入图片描述

红肚兜

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
1
评论
神经网络与深度学习作业12：第七章课后题

在小批量梯度下降中有：gt(θ)=1K∑(x,y)ϵSt∂L(y,f(x;θ))∂θg_t(θ)= \frac{1}{K}∑_{(x,y)ϵS_t}\frac{∂L(y,f(x;θ))}{∂θ}gt(θ)=K1(x,y)ϵSt∑∂θ∂L(y,f(x;θ))θt=θt−1−αgtθ_t=θ_{t−1}−αg_tθt=θt−1−αgt 其中gt=δKg_t = \frac{δ}{K}gt=Kδ,则有：θt=θt−1−δKαθ_t = θ_{t-1}-\frac{\delta
复制链接

扫一扫