一、线性回归
在统计学中,线性回归是利用称为线性回归方程的最小平方函数对一个或多个自变量和因变量之间关系进行建模的一种回归分析。学习过程如图所示。
在线性回归中,数据使用线性预测函数来建模,并且未知的模型参数也是通过数据来估计。这些模型被叫做线性模型。线性模型中预测得到的结果会与真实结果存在一定偏差,即真实值与预测值之间的差值,我们评价一个线性模型拟合好坏则通过残差来判定。因此在学习过程中可以设置一个损失函数,并通过学习使得损失函数最小,从而得到最佳的线性回归模型。线性回归模型经常用最小二乘逼近来拟合。
二、线性二分类
线性二分类表示任务有两个类别,即是假设每个样本都被设置了一个且仅有一个标签 0 或者 1。与线性回归不同,线性二分类输出的是属于某类的概率,参数为最佳分类直线,且是二维的分类。由于我们需要概率结果在0和1之间,因此需要对值进行变换,变换使用函数如图所示。
该函数称作Sigmoid函数。按照线性回归的方法,同样构造误差函数,找到参数使得误差函数最小,即可解决线性二分类问题,由于使用了Sigmoid函数因此该类问题又被称为softmax回归。
由于对误差函数进行求导的过程中函数为非线性,因此采用迭代方式构建序列,即梯度下降法,从而使误差函数逐次下降,从而完成迭代过程。
三、神经元模型
生物上的神经元的形态多种多样,但都可分为胞体和突起两部分。神经元突起又分树突和轴突两种。树突多呈树状分支,它可接受刺激并将冲动传向胞体;轴突呈细索状,末端常有分支,称轴突终末,轴突将冲动从胞体传向终末。通常一个神经元有一个至多个树突,但轴突只有一条。生物神经元如图所示。
在人工神经网络中,可建立人工神经元模型(M-P模型),模型结果如图所示。
单神经元模型如图所示。可使用非对称型Sigmiod函数,对称型Sigmoid函数与对称型阶跃函数进行。
四、感知机模型
4.1感知机基础
对于样本来说,可根据正确与错误分类样本定于损失函数,自动迭代完成线性分类任务,样本分类规则如下所示。
4.2多层感知机
对于线性不可分问题无法进行线性分类,即可通过多层感知机的方法进行解决。在输入和输出层间加一或多层隐单元,构成多层感知器(多层前馈神经网络)。加一层隐节点(单元)为三层网络,可解决异或(XOR)问题。由输入得到两个隐节点、一个输出层节点的输出。
多层感知器网络,有如下定理:若隐层节点(单元)可任意设置,用三层阈值节点的 网络,可以实现任意的二值逻辑函数。若隐层节点(单元)可任意设置,用三层S型非线性特 性节点的网络,可以一致逼近紧集上的连续函数或按 范数逼近紧集上的平方可积函数。
五、BP算法
多层前馈网络的反向传播 (BP)学习算法,简称BP算法,是有导师的学习,它是梯度下降法在多层前馈网中的应用。BP算法首先设置初始权值系数为较小的随机非0值,之后给定输入输出样本对,计算网络输出,完成前向传播,计算目标函数,如果小于给定误差则计算成功,否则转入反向传播计算,由输出层将误差按梯度下降法反向传播,逐层调整权值。
六、动量法
动量法主要用于解决SDG问题,即病态曲率问题。在进入以蓝色标记的山沟状区域之前随机开始。颜色实际上表示损失函数在特定点处的值有多大,红色表示最大值,蓝色表示最小值。我们想要达到最小值点,为此但需要我们穿过山沟。这个区域就是所谓的病态曲率。
如果把原始的 SGD 想象成一个纸团在重力作用向下滚动,由于质量小受到山壁弹力的干扰大,导致来回震荡;或者在鞍点处因为质量小速度很快减为 0,导致无法离开这块平地。动量方法相当于把纸团换成了铁球;不容易受到外力的干扰,轨迹更加稳定;同时因为在鞍点处因为惯性的作用,更有可能离开平地。算法更新公式如图所示。
七、自适应梯度算法