机器学习笔记-激活函数关于零点对称问题

最新推荐文章于 2024-06-17 21:21:54 发布

复杂混沌

最新推荐文章于 2024-06-17 21:21:54 发布

阅读量891

点赞数 2

分类专栏：机器学习笔记文章标签：机器学习深度学习人工智能

本文链接：https://blog.csdn.net/weixin_54814385/article/details/123378073

版权

机器学习笔记专栏收录该内容

35 篇文章 7 订阅

订阅专栏

前言

激活函数值域关于零对称的问题在激活函数那篇文章中未详细介绍，在那里说到，当激活函数的值域不关于0点对称，会导致梯度下降的速度下降，关于这一点，过去我只是将其记下，却并未理解背后的原因。此篇谈谈背后的原因。
要探讨为什么Sigmoid函数会影响学习效率这个问题，需要找到影响梯度的因素。

权重更新

深度学习一般的学习方法是反向传播，简单来说，就是通过链式法则，求解全局损失函数 $L$ 对某一参数 $w$ 的偏导数，而后乘以学习率，向梯度的反方向更新参数 $w$ ,更新公式可以表示为：
$w<-w-\eta\cdot\frac{\partial L}{\partial w}$
学习率参数是全局设置的参数，不会影响学习的符号问题，参数的核心步骤就是计算 $\frac{\partial L}{\partial w}$ ，对于某一个神经元来说，其输入与输出的关系是：
$f(x,w,b)=f(z)=f(\sum\limits_{i}{w_ix_i}+b)$
因此对于参数 $w_i$ 来说：
$\frac{\partial L}{\partial w_i}=\frac{\partial L}{\partial f}\frac{\partial f}{\partial z}\frac{\partial z}{\partial w_i} = x_i\cdot \frac{\partial L}{\partial f}\frac{\partial f}{\partial z}$
因此参数的更新是：
$w_i<-w_i-\eta x_i\cdot\frac{\partial L}{\partial f}\frac{\partial f}{\partial z}$

上述的参数更新方式，这个 $w_i$ 指的是某两层之间的权重，例如下面的图像：在这里插入图片描述
其中我们的目的是借助误差更新W1和W2的参数值，而参数W1和W2分别对应于X1与X2。
于是有：

$w_1=w_1-\eta x_1\cdot\frac{\partial L}{\partial f}\frac{\partial f}{\partial z} \\ w_2=w_2-\eta x_2\cdot\frac{\partial L}{\partial f}\frac{\partial f}{\partial z}$
其中 $\frac{\partial L}{\partial f}\frac{\partial f}{\partial z}$ 可以理解为梯度项，在计算梯度时，对于w1和w2，它们的 $\frac{\partial L}{\partial f}\frac{\partial f}{\partial z}$ 应该是相等的，也即 $w_i$ 的更新与 $\frac{\partial L}{\partial f}\frac{\partial f}{\partial z}$ 是无关的，于是，仅剩下一个 $x_i$ 影响方向，当 $x_i$ 的值为正时， $w_I$ 更新方向就是正方向，当 $x_i$ 的方向为负时， $w_i$ 更新方向就是负方向，
下标1，2表示第1，2个神经元，而 $\frac{\partial L}{\partial f}\frac{\partial f}{\partial z}$ 表示梯度计算量，它们是根据所有样本点计算得到的，对于这两个神经元， $\frac{\partial L}{\partial f}\frac{\partial f}{\partial z}$ 的值就是一样的，唯一不同的就是 $x_i$ 不同，而 $x_1$ 与 $x_2$ 又是上一层的输出，上一层是经过Sigmoid函数进行变换的，所有的 $x_i$ 都是正数（这是因为Sigmoid函数的输出都是大于0的）。
到此，我们找到更新参数都是同方向的原因了。

为什么所有的 $x_i$ 都是正数就会影响更新效率呢？
要解决这一点，我们需要理解反向传播的原理，向着梯度下降的方向改变权重，那么在学习过程中就肯定存在梯度方向不同的情况，例如有的 $w_i$ 梯度方向是下降，有的 $w_j$ 梯度方向是上升，这样不断迭代就会影响效率。优点像梯度下降法里面的锯齿状迭代，假设在一次迭代过程中 $w_1$ 需要向着正方向更新， $w_2$ 则需要向着负方向进行更新，但是反向传播的权重更新都是同一方向的，假设计算得到的梯度都是朝着正向更新的，那么参数 $w_1$ 在更新过程中就会更收益，而参数 $w_2$ 在更新时就会朝着反方向更新，这必定会造成一定的误差。这一代更新后得到新的参数 $w_1'$ 和 $w_2'$ ，后续再用 $w_1'$ 和 $w_2'$ 来计算误梯度时，可能计算的更新方式就是负方向了，这个时候参数 $w_2$ 就更收益，而参数 $w_1$ 就向放方向更新，这样不断地迭代，虽然说误差会在不断减小，但是减小的速度肯定会受到一定的影响，虽然最后也会收敛到一个好的解，但是过程是“曲折”的。
此外，在更新输入层到第一层隐含层的权重时，按理来说，这一层的权重可以有不同方向的迭代，因为输入值不一定是同方向的。
基于Sigmoid函数改进的Tanh函数就能很好的解决这个问题，Tanh函数图像如下：

在这里插入图片描述
Tanh函数的值域是-1到1，是基于0点对称的，所以在更新参数时能进行有效更新，并不会造成所有参数发生同方向更新。

复杂混沌

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
机器学习笔记-激活函数关于零点对称问题

前言激活函数值域关于零对称的问题在激活函数那篇文章中未详细介绍，在那里说到，当激活函数的值域不关于0点对称，会导致梯度下降的速度下降，关于这一点，过去我只是将其记下，却并未理解背后的原因。此篇谈谈背后的原因。要探讨为什么Sigmoid函数会影响学习效率这个问题，需要找到影响梯度的因素。权重更新深度学习一般的学习方法是反向传播，简单来说，就是通过链式法则，求解全局损失函数LLL对某一参数www的偏导数，而后乘以学习率，向梯度的反方向更新参数www,更新公式可以表示为：w<−w−η⋅∂L
复制链接

扫一扫