参考B站
P1、背景
深度学习相当于一个大的ANN;
人工智能的仿生学派(典型代表是ANN)vs数理学派(典型代表是SVM);
MP模型
P2、感知器算法
之后又证明了感知器算法的收敛定理(只要训练数据线性可分),而且不断迭代可以更接近平衡状态。
P3、感知器算法的意义
感知器算法输入小部分数据,寻找一个超平面能分类即可;而支持向量机输入所有数据,寻找的是最大间隔的超平面(更好)。
感知器算法的意义在于(1)提出了一套机器学习框架;(2)提出欠拟合和过拟合(3)消耗小。
P4、第一次寒冬
大多数数据线性不可分,比如判断一个图是连通图还是非连通图。
如果是彩色图,则在计算机中是三个矩阵,红绿蓝0~255表示不同的色度。
P5、多层神经网络
P6、梯度下降算法
三层神经网络可以模拟任意决策函数,但我们不知道这个决策函数是什么?也不知道表征这个决策函数的神经网络的结构是什么?
α称为学习率
人工神经网络的训练策略:
(1)基于实践经验,确定神经网络的层数和每一层神经元个数
(2)用梯度下降法求解目标函数的局部极小值
P7、后向传播算法上
后向传播算法的关键是:九个偏导数之间是相互关联的。先算出三个枢纽位置的偏导。
P8、后向传播算法的应用
反向传播算法需要对非线性函数f求导,但阶跃函数在0这一点无导数。
改进一:用上面两个函数替代原来的阶跃函数。
独热向量
改进二:多层神经网络分类问题中经常采用下面的目标函数。
假设多层神经网络最后一层的向量为z
y的每个分量是z的每个分量取esp后再归一化
改进三:随机梯度下降法(SGD)
上述步骤中,每输入一个训练样本,就要更新一次w和b,误差大,速度慢。
P10、参数设置
采用ADAGRAD算法解决Z字形
Adam算法也引入了逐渐降低梯度探索步长的机制