3.1 神经网络
- 层的概念[1]/[2]
- 输入层/隐藏层/输出层(只有一个值)
- 隐藏层和输出层带有参数(绿色)
- 上图是只有一个隐藏层的神经网络(双层神经网络,输入层为第零层)
- 最关键的几步:
- 精华!
3.2 神经网络中的线性函数与非线性函数
- 线性函数只能用于简单的拟合图形中
- 非线性函数作为激活函数能拟合更为复杂多样的图形
- 一般在输出层使用线性函数,而在隐藏层使用非线性函数
(几个常用的非线性激活函数)
- 使用tan而不是西格玛函数:数据平均值为0而不是0.5,有类似数据中心化的效果。并使下一层的学习更简单一点
- 基本不太会用西格玛函数,二元函数且在输出层 v时例外
- 当上述常用激活函数图中的z较大或是较小时,导数的梯度(或者说函数的斜率)就可能会很小(接近0),从而影响梯度下降的效率;一般在隐层中会使用修正线性单元RELU,这也是默认的使用于隐藏层的激活函数
- 带泄漏的RELU:z为负值的时候平缓的趋于0
3.3 梯度下降算法
- n[0]:输入特征/n[1]:隐藏层/n[2]:输出层
- n[2]=1时,矩阵w[1]维度就是(n[1],n[0]),b[1]就是n[1]列向量,可写成(n[1],1),b[2]就是n[2]列向量,可写成(n[2],1)