激活函数/损失函数/优化函数 梯度下降法

激活函数、损失函数、优化函数

激活函数(Activation Function)是神经网络中的一个非常重要的组件,它定义了神经元(或者称为节点)的输出。每个神经元都会将其输入加权求和后通过激活函数进行非线性转换,使得神经网络能够学习复杂的非线性关系,激活函数引入非线性是因为多个线性层的组合仍然是线性的,而引入非线性激活函数使得神经网络可以学习更加复杂的函数。常见的激活函数包括 Sigmoid、ReLU(Rectified Linear Unit)、Leaky ReLU、tanh 等。

损失函数(Loss Function)是用于衡量模型预测值与真实值之间的差异或者误差的函数。在训练神经网络时,优化算法的目标是最小化损失函数的值,这样网络的输出结果将更接近于实际标签。选择适当的损失函数取决于问题的类型,例如分类问题常用的交叉熵损失函数(Cross-Entropy Loss),回归问题常用的均方误差(Mean Squared Error)损失函数等。

优化函数(Optimization Function)是用来更新神经网络的权重和偏置,以最小化损失函数的值。在训练过程中,优化函数根据当前的权重和偏置,以及损失函数的梯度信息,来更新模型的参数,使得损失函数逐渐减小,模型逐渐收敛到更好的状态。常见的优化函数包括梯度下降(Gradient Descent)、随机梯度下降(Stochastic Gradient Descent,SGD)、Adam 等。

梯度下降法

梯度下降法是原始的优化方法,它的主要目的是通过迭代找到目标函数(也就是损失函数)的最小值
在梯度下降算法中,每次都会遍历整个训练集,然后会对每个参数求偏导,取最大的点,根据负梯度方向是使函数值下降最快的方向,这个是可以通过泰勒展开求得的,在迭代的每一步根据负梯度的方向更新参数w的值,从而求得最小的损失函数J(w)。当J(w)是凸函数的时候,用梯度下降的方法取得的最小值是全局最优解。但神经网络的损失函数往往是非凸函数,所以梯度下降法往往找到的是局部最优解。

精简版:梯度下降法的目标是最小化损失函数,它通过计算损失函数关于参数的梯度(方向导数)来确定参数更新的方向。在梯度下降法中,参数会沿着梯度的反方向进行更新,以使损失函数尽可能减小。

  • 梯度下降算法如何调优?
    实际使用梯度下降法时,各项参数指标不能一步就达到理想状态,对梯度下降法调优主要体现在以下几个方面:
  1. 算法迭代步长,也就是学习率α选择。在算法参数初始化时,有时根据经验将步长初始化为0.1。实际取值取决于数据样本。可以从大到小,多取一些值,分别运行算法看迭代效果,如果损失函数在变小,则取值有效。如果取值无效,说明要增大步长。但步长太大,有时会导致迭代速度过快,错过最优解。步长太小,迭代速度慢,算法运行时间长。
  2. 参数的初始值选择。初始值不同,获得的最小值也有可能不同,梯度下降有可能得到的是局部最小值。如果损失函数是凸函数,则一定是最优解。由于有局部最优解的风险,需要多次用不同初始值运行算法,选择损失函数最小的初值。
  3. 标准化处理。由于样本不同,特征取值范围也不同,导致迭代速度慢。为了减少特征取值的影响,可对特征数据标准化,使新期望为0,新方差为1,可节省算法运行时间。
  • 梯度下降法一定是下降最快的方向吗?
    梯度向量指向的方向是当前位置损失函数变化最快的方向,但并不保证是全局最快的下降方向。这是因为梯度下降法是一种局部搜索算法,它只考虑了当前位置的局部信息,而不会全局搜索整个参数空间。一般我们认为牛顿法是下降最快的方向。

  • 为什么牛顿法下降最快?和梯度下降的区别?
    梯度下降法使用损失函数关于参数的梯度来更新参数,使损失函数逐渐减小。而牛顿法是一种更高阶的优化算法,除了使用梯度,还考虑了损失函数关于参数的二阶导数,即海森矩阵。海森矩阵可以提供更多关于函数曲率的信息,使得牛顿法能够更精确地确定优化方向。
    在二次凸优化问题中,牛顿法可以一步到位地找到全局最优解,因为对于凸函数,局部最小值和全局最小值是相同的。在这种情况下,牛顿法可以认为是梯度下降最快的方向。
    然而,在非凸优化问题中,牛顿法的性能可能会受到影响。因为海森矩阵可能包含负特征值,导致在某些方向上函数值并不是下降的,而是上升的,从而使得牛顿法无法保证每次迭代都能得到下降的方向。此外,计算和存储海森矩阵在高维问题中可能会非常昂贵,因此牛顿法并不总是最优选择。
    由于牛顿法和梯度下降法各自有优缺点,通常会采用改进的算法来结合二者的优势。例如,拟牛顿法(如BFGS、L-BFGS)是一类常用的优化算法,它使用梯度信息来近似海森矩阵,从而在非凸问题中取得较好的表现,同时避免了直接计算海森矩阵的高代价。这些算法通常被认为是较为高效和稳定的优化方法。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值