第四章 反向传播
4.1 反向传播
最小化损失函数–梯度下降迭代
计算图的框架:用图来表示函数
反向传播技术:递归地调用链式法则,计算图中每个变量的梯度
反向传播的工作:用图来表示函数;利用已知值进行前向传播,计算中间值;每个节点起一个名字,并找到表达式;从后向前计算所有梯度(链式法则传导计算),结果在所有方向上的梯度,即所有因素对结果的影响;损失函数对于每个节点的梯度值(自上游传递)
对于每个节点来说向下传导的梯度值等于上游梯度值乘本地梯度值
eg2
Jacobian?L2范数计算
当输入x和参数w为向量时,需要针对每个元素考虑对上游的影响
前向传播计算节点输出(save中间值),反向传播计算梯度(使用中间值)
模块化设计
4.2 神经网络
2-layer Neural Network f=W2max(0,W1x)
线性层、简单函数、堆叠、多阶段分层计算
W2是所有种类W1的加权
h是非线性部分结束后的值(非线性部分在这里是max(0,W1x))
神经元的激活机制(细胞体、树突、轴突)、激活函数
非线性机制、ReLu