《深度学习入门》(俗称:鱼书)读书笔记 Day3
误差反向传播算法
修正算法的时候,使用的是数值微分。优势是简单,缺点是计算比较费时间。
1.计算图
计算图是将计算过程用图形表示出来。
计算图是将计算的中间结果写在箭头上方,节点写计算处理。
局部计算:无论全局发生了什么都能只根据与自己相关的信息输出接下来的结果。计算图可以集中精力于局部计算,通过传递它的计算结果得到全局的复杂计算的结果。
计算图的优点:
- 局部计算
- 把中间的计算结果全部保存下来
- 可以通过正向和反向传播高效计算导数。
2.链式法则
反向传播的计算顺序是将上方传来的输入信号乘以节点的局部导数,然后将结果传递给下一个节点。(局部导数的求解基于链式法则)
3.反向传播算法的调整
1.激活函数层的实现
包括ReLU,Sigmoid函数。
在正向传播的时候将输出保存起来,反向传播的时候利用这个进行计算。
2.Affine/Softmax层的实现
Affine层:正向传播中进行的矩阵乘积运算在几何学领域被称为仿射变换(包括一次线性变换和一次平移,正好对应加权和加偏置运算)。将进行仿射变换的处理实现为“Affine层“
Softmax-with-loss层:softmax函数会将输入值正规化后再输出。神经网络的推理通常不需要使用softmax层,因为推理只需要给出一个答案,只对当前得分的最大值感兴趣。但学习阶段需要Softmax层。
神经网络的学习目的就是通过调整参数,使神经网络的输出接近监督标签,因此必须将神经网络的输出和监督标签的误差高效的传递给前面的层。
使用交叉熵误差作为softmax函数的损失函数
回归问题使用平方和误差作为恒等函数的损失函数
反向传播时要将传播的值除以批的大小,传递给前面层的是单个数据的误差。
4.误差反向传播算法的实现
数值微分需要花费较多的时间,误差反向传播算法可以高效的计算梯度。
在正向传播的时候使用OrderdDict(有序字典)来添加元素,反向传播的时候按照相反的方顺序调用即可。
梯度确认:确认数值微分和误差反向传播算法求出的结果是否一致。(计算各个权重参数中对应元素差的绝对值,并计算其平均值)
这一章零散的比较多,有用的不多,需要真正建立一个网络来实现一下能够更好的理解。