目录
求导是几乎所有深度学习优化算法的关键步骤
矩阵计算(求导数)
标量导数
y | a (不是x的函数) | ||||
0 |
y | u+v | uv | y=f(u),u=g(x) |
亚导数:遇到导数不可微的函数可采用分段函数表示导数
一元函数中可微即可导,多元函数中可微一定可导(可微:每一个方向都是光滑的),可导不一定可微
eg.|x|
梯度
偏导数组成的向量,方向代表增长速率最快的方向,模长表示增长速率
标量x 向量x
标量y 标量 向量
向量y 向量 矩阵
物理意义
深度学习的应用
梯度计算
向量链式法则
标量链式法则:复合函数求导
向量链式法则:
(1,n) (1,)(1,n) (1,n) (1,k)(k,n) (m,n) (m,k)(k,n)
自动求导
实际中,根据我们设计的模型,系统会构建一个计算图(computational graph), 来跟踪计算是哪些数据通过哪些操作组合起来产生输出。 自动微分使系统能够随后反向传播梯度。 这里,反向传播(backpropagate)意味着跟踪整个计算图,填充关于每个参数的偏导数。
计算图
显式构造
隐式构造
自动求导的两种模式
正向累积
反向累积(反向传递)
复杂度
反向累积
与正向累积对比(不常用)