gradient- based learning applied to document recognition
用反向传播算法训练的多层神经网络是基于梯度学习技术成功的最好例子。给定一个合适的网络结构,基于梯度的学习算法可以用最少的预处理来合成一个复杂的决策面,该决策面可以对高纬模式(手写体字符)进行分类。
- 学习数据
- 损失函数:测量正确的或期望的图案输出与系统产生的输出之间的差异。
- 平均损耗函数:训练集的标记示例上的误差的平均值。在一个最简单的设置中,学习的问题在于找到在实践中最小的值;在实际操作中,系统在训练集上的性能并不是很重要,更相关的测量是系统在实地的错误率。
- 测试集:性能估计通过测量的准确性在一组样本训练集不相交。
-
gradient- based 学习
一组参数使函数最小化。通过估计参数值的微小变化对损耗函数的影响,可以使损耗函数最小化。在文章描述的过程中,参数集是一个实值向量,它是连续的,并且处处可微,此时,最简单的最小化过程就是梯度下降算法。又一个流行的最小化过程是随机梯度算法。 -
梯度反向传播
反向传播的基本思想是,可以通过从输出到输入的传播有效的计算梯度。 -
在真实的手写识别系统中学习
用基于梯度的学习方法训练的神经网络比在相同数据上测量的其他方法表现的更好,最好的神经网络被称为卷积网络,设计的目的是学习直接从像素图像中提取相关特征。