1、感知机
2、感知机的训练原理
判断标准:y_i乘w与x_i的内积,小于0继续进行迭代
停止条件:所有样本都分类正确
3、感知机的收敛定理
4、感知机的问题
不能拟合XOR问题(异或问题:相异为1,相同为0/-1)
原因:感知机只能产生线性分割面,不能拟合XOR函数
处理方法:多层感知机可以解决XOR问题
5、多层感知机(解决XOR问题)
5.1 为什么需要非线性激活函数?——加入非线性因素,增加神经网络表达能力,使得神经网络可以任意逼近任何非线性函数
5.2 激活函数
sigmoid激活函数
注意:当输入接近0时,sigmoid函数接近线性变换
Tanh激活函数
注意,当输入在0附近时,tanh函数接近线性变换。函数的形状类似于sigmoid函数, 不同的是tanh函数关于坐标系原点中心对称。
ReLU激活函数
使用ReLU的原因是,它求导表现得特别好:要么让参数消失,要么让参数通过。 这使得优化表现得更好,并且ReLU减轻了困扰以往神经网络的梯度消失问题
ReLU优点:
1、处理了sigmoid、tanh中常见的梯度消失问题(正区间都是1)(在sigmoid接近饱和区时,变换太缓慢,导数趋于0,这种情况会造成信息丢失,从而无法完成深层网络的训练。)
2、是计算梯度最快的激活函数
3、收敛速度远快于sigmoid和tanh
4、Relu会使一部分神经元的输出为0,这样就造成了网络的稀疏性,并且减少了参数的相互依存关系,缓解了过拟合问题的发生
ReLU缺点:
1、ReLU的输出不是zero-centered;
2、ReLU在训练的时候很”脆弱”,一不小心有可能导致神经元”坏死”。(80 条消息) 深度学习中,使用relu存在梯度过大导致神经元“死亡”,怎么理解? - 知乎 (zhihu.com)https://www.zhihu.com/question/67151971/answer/434079498
ReLU导数图像
5.3 多分类问题
多类分类本质上是softmax,在softamx基础上加入隐藏层就是多层感知机