preface
收录了关于深度学习的一些术语,可用来当作词典学习时查询备忘,不适用于入门学习
持续更新中…
Latest v1.0
- sng函数:又称符号函数,输入正数输出1,输入负数输出-1
- mp模型: 所谓M-P模型,其实是按照生物神经元的结构和工作原理构造出来的一个抽象和简化了的模型,它实际上就是对单个神经元的一种建模。
- 神经网络训练算法的原理是什么?
这是一个经典的神经元模型,输出预测结果,一个神经网络的训练算法就是让权重的值调整到最佳,以使得整个网络的预测效果最好。
已知的属性(输入)称为特征,需要预测的结果称为标签或目标。 - 什么是神经元?
我们把上图的模型代入符号,得到下图
input × weight + bias --> sum --> activate function(eg: sigmoid) --> output
神经元可以看作一个计算与存储单元。计算是神经元对其的输入进行计算功能。存储是神经元会暂存计算结果,并传递到下一层。
可见z是在输入和权值的线性加权和叠加了一个函数g的值。在MP模型里,函数g是sgn函数,也就是取符号函数。
以后常见描述神经元会用“单元”unit或"节点"node来表示。 - 感知器/感知机(Perceptron) :由两层神经元组成的神经网络
- 什么是单层神经网络? 我们把需要计算的层次称之为“计算层”,并把拥有一个计算层的网络称之为“单层神经网络”。
- 两层神经网络: 如下图,中间层和输出层都是计算层。
- 偏置节点(bias unit)
在考虑了偏置之后,神经网络的矩阵运算就如下:
可以简单理解成线性回归中的误差项。考虑偏置之后的神经网络图如下:
一般情况下,神经网络的结构图都不会明确画出偏置节点。 - 什么是激活函数?
在两层神经网络中,我们不再使用sgn函数作为函数g,而是使用平滑函数sigmoid作为函数g。我们把函数g也称作激活函数(active function)
事实上,神经网络的本质就是通过参数与激活函数来拟合特征与目标之间的真实函数关系。
更新:关于激活函数这篇文章介绍得很生动:知乎专栏文章
总的来说,就是:就算有多少个线性叠加之后仍然是线性,而为了让函数能表示各种复杂的情况,就在每一层上加激活函数
-
有关激活函数
在单层神经网络时,我们使用的激活函数是sgn函数。到了两层神经网络时,我们使用的最多的是sigmoid函数。而到了多层神经网络(深度学习)时,通过一系列的研究发现,ReLU函数在训练多层神经网络时,更容易收敛,并且预测性能更好 -
提升模型在测试集上的预测效果的主题叫做泛化(generalization),相关方法被称作正则化(regularization)。神经网络中常用的泛化技术有权重衰减等。
-
有关损失函数
分类问题和回归问题是监督学习的两大种类:分类问题的目标变量是离散的;回归问题的目标变量是连续的数值。
神经网络模型的效果及优化的目标是通过损失函数来定义的。
回归问题解决的是对具体数值的预测。比如房价预测、销量预测等都是回归问题。这些问题需要预测的不是一个事先定义好的类别,而是一个任意实数。解决回顾问题的神经网络一般只有一个输出节点,这个节点的输出值就是预测值。对于回归问题,常用的损失函数是均方误差( MSE,mean squared error )。分类问题常用的损失函数为交叉熵( Cross Entropy Loss)。
原文链接 -
什么是梯度下降算法?
减小误差时我们用梯度下降算法来优化参数。
梯度下降算法每次计算参数在当前的梯度,然后让参数向着梯度的反方向前进一段距离,不断重复,直到梯度接近零时截止。一般这个时候,所有的参数恰好达到使损失函数达到一个最低值的状态。 -
什么是过拟合(over-fitting)?
over-fitting是相对under-fitting而言的,前者是指拟合中虽然没有忽略主要的数据变化规律,但是没有去除足够的扰动、噪声怕、与偏差等,导致拟合出的结果相对于真实情况过于复杂,而真实的规律也被掩盖。后者则是忽略了部分重要主要的数据变化规律,导致结论相对于真实情况过分简单。本答案中每组最后一个图(除最后一个以外),部分数据和局部细节拟合没有问题,但是整体的真实趋势完全模糊,所以叫over-fitting。
一个有趣的解释:
data:
normal-fitting:
over-fitting:
在深度学习中,泛化技术变的比以往更加的重要。这主要是因为神经网络的层数增加了,参数也增加了,表示能力大幅度增强,很容易出现过拟合现象。因此正则化技术就显得十分重要。目前,Dropout技术,以及数据扩容(Data-Augmentation)技术是目前使用的最多的正则化技术。 -
lr(learning rate 学习速率):学习速率是指参数以多大的幅度来利用梯度更新
-
批量(batch size):批量是指用多少个样本算出的平均梯度作为最终梯度
-
高参、超参数(hyper-parameters):不是模型中的参数但影响着训练效果的参数,如lr、批量都是超参数,需要人工调节。
-
深度学习的发展
历史发展:
从单层神经网络,到两层神经网络,再到多层神经网络,下图说明了,随着网络层数的增加,以及激活函数的调整,神经网络所能拟合的决策分界平面的能力。
-
神经网络的类别
前馈神经网络是没有回路的有向图,而反馈神经网络有回路。 -
epoch和batch、数据加载与归一
-
神经网络的保存与载入
参考链接
感恩。