花书学习——深度模型中的优化

8 深度模型中的优化

8.1 学习和纯优化有和不同

  • 机器学习经常是间接作用的

我们关注某些度量 P P P,其定义于测试集上并且可能是不可理解的。因此,我们只是间接优化 P P P。我们希望通过降低代价函数 J ( θ ) J(\theta) J(θ)来提高 P P P。纯优化问题最小化目标本身。

通常 ,代价函数可写为训练集上的平均,如 J ( θ ) = E ( x , y ) ≈ p ^ d a t a L ( f ( x ; θ ) , y ) J(\theta)=E_{(x,y) \approx \hat{p}_{data}}L(f(x;\theta),y) J(θ)=E(x,y)p^dataL(f(x;θ),y) L L L是每个样本的损失函数, f ( x ; θ ) f(x;\theta) f(x;θ)是输入 x x x时所预测的输出, p ^ d a t a \hat{p}_{data} p^data是经验分布。监督学习中, y y y是目标输出。
上式定义了训练集上的目标函数,通常我们希望最小化取自数据生成分布 p d a t a p_{data} pdata的期望,而不仅仅是有限训练集上的对应目标函数: J ( θ ) = E ( x , y ) ≈ p d a t a L ( f ( x ; θ ) , y ) J(\theta)=E_{(x,y) \approx p_{data}}L(f(x;\theta),y) J(θ)=E(x,y)pdataL(f(x;θ),y)

8.1.1 经验风险最小化

将一个机器学习问题转化成一个优化问题的最简单方法是最小化训练集上的期望损失。这意味着用训练集上的经验分布 p ^ ( x , y ) \hat{p}(x,y) p^(x,y)替代真是分布 p ( x , y ) p(x,y) p(x,y)。现在我们将最小化经验风险 E x , y ∼ p ^ d a t a [ L ( f ( x ; θ ) , y ) ] = 1 m ∑ i = 1 m L ( f ( x ( i ) ; θ ) , y ( i ) ) E_{x,y \sim \hat{p}_{data}}[L(f(x;\theta),y)]=\frac{1}{m}\sum_{i=1}^mL(f(x^{(i)};\theta),y^{(i)}) Ex,yp^data[L(f(x;θ),y)]=m1i=1mL(f(x(i);θ),y(i)) m m m代表样本数目。经验风险最小化容易过拟合。

8.1.2 代理损失函数和提前终止

有时候我们关注的损失函数(比如分类误差)并不能被高效的优化。例如,精确地最小化0-1损失函数通常是不可解的。在这种情况下,我们通常会优化代理损失函数。如负对数似然对0-1损失的代理。
机器学习通常优化代理损失函数,但是在基于提前终止的收敛条件满足时停止。通常,提前终止使用真实潜在损失函数,如验证集上的0-1损失,并设计为在过拟合发生之前终止。

8.1.3 批量算法和小批量算法

8.2 神经网络优化中的挑战

8.2.1 病态

病态体现在随机梯度下降会“卡”在某些情况,此时即使很小的更新步长也会增加代价函数。

8.2.2 局部极小值

8.2.3 高原、鞍点和其他平坦区域

鞍点附近某些点有更大的代价,有些点有更小的代价。多数随机函数表现如下性质:低维空间中,局部极小值很普遍。而在更高维空间中,局极小值很罕见,但是鞍点很常见。

8.2.4 悬崖和梯度爆炸

斜率较大的情况(多个较大的权重相乘导致),可以使用梯度截断来避免后果。
∣ g ∣ > u |g|>u g>u时,用下面的梯度来替代原来的梯度值: g ← g ∣ ∣ g ∣ ∣ u g\leftarrow\frac{g}{||g||}u gggu

8.2.5 长期依赖

变深的结构使模型丧失了学习到先前信息的能力。
假设某个计算图中包含一条反复与矩阵 W W W相乘的路径。 t t t步后,相当于乘以 W t W^t Wt。假设W有特征分解 W = V Λ V − 1 W=V\Lambda V^{-1} W=VΛV1,则 W t = ( V Λ V − 1 ) t = V Λ t V − 1 W^t=(V\Lambda V^{-1})^t=V\Lambda^t V^{-1} Wt=(VΛV1)t=VΛtV1当特征值 λ i \lambda_i λi不在1附近时,若在量级上大于1会发生爆炸,小于1会发生梯度消失。梯度消失使得我们难以知道参数朝哪个方向移动能改进代价函数,梯度爆炸会使得学习不稳定。

8.2.6 非精确梯度

8.2.7 局部和全局结构间的弱对应

8.2.8 优化的理论限制

8.3 基本算法

8.3.1 随机梯度下降

按照数据生成分布抽取 m m m个小批量(独立同分布的)样本,通过计算它们梯度均值,我们可以得到梯度的无偏估计。
在这里插入图片描述

8.3.2 动量

动量主要解决两个问题: H e s s i a n Hessian Hessian矩阵的病态条件和随机梯度的方差。更新式为
v ← α v − ϵ ∇ θ ( 1 m ∑ i = 1 m L ( f ( x ( i ) ; θ ) , y ( i ) ) ) v \leftarrow \alpha v-\epsilon \nabla_\theta(\frac{1}{m}\sum_{i=1}^mL(f(x^{(i)};\theta),y^{(i)})) vαvϵθ(m1i=1mL(f(x(i);θ),y(i)

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值