在机器学习中,我们经常会用到线性回归:y = Wx+b
我们也会用到损失函数,损失函数的公式如下图:
通过观察上面的式子我们发现,激活函数
σ
\sigma
σ 包含着线性函数 Wx+b,这个时候损失函数就和权值W和偏置值b联系起来了。
接着我们队损失函数的W和b分别进行求导:
就像图中所说的,W和b的梯度跟激活函数的梯度成正比,激活函数的梯度越大,则w和b的大小调整得越快,训练收敛得越快。
所以我们选择激活函数应该选择梯度较大的函数,这样有利于训练更快速的收敛。
结束线/
欢迎大家加入Q群讨论:463255841
结束线/