道理我都懂,但是神经网络反向传播时的梯度到底怎么求?

  1. 用好维度分析,不要直接求导传送门
    为什么这一招总是有效呢?这里的关键点在于Loss是一个标量,而标量对一个矩阵求导,其大小和这个矩阵的大小永远是一样的。那么,在神经网络里,你永远都可以执行这个“知二求一”的过程,其中的“二”就是两个Loss对参数的导数,另一个是你不会求的矩阵对矩阵的导数。首先把你没法直接求的矩阵导数的大小给计算出来,然后利用你熟悉的标量求导的方法大概看看导数长什么样子,最后凑出那个目标大小的矩阵来就好了。

  2. 用好链式法则,不要一步到位传送门

已标记关键词 清除标记
©️2020 CSDN 皮肤主题: 技术工厂 设计师:CSDN官方博客 返回首页