第六章
最小批量随机梯度下降:
连续的批量抽样
通过计算图或神经网络将数据正向传播 得到损失值
通过整个网络的反向传播 计算梯度
使用这个梯度 更新网络中的参数或权重
6.1 激活函数
- Sigmoid----类似神经元的饱和放电率
存在梯度消失的问题,输入绝对值太大;
非0中心函数,当输入值仅为正或负时,梯度沿相同方向变化;
计算代价较大 - tanh(x)----零中心
饱和时,梯度消失
表现略强于Sigmoid - ReLU f(x)=max(0,x)
在正区,不会出现饱和
计算速度快、代价小,更快收敛
更加具备生物学上的合理性
dead ReLU:在整个半区出现梯度消失 - Leaky ReLU f(x)=max(0.01x,x)
- PReLU f(x)=max(ax,x)
- ELU----输出均值更接近0
- Maxout Neuron
泛化,在两个线性函数中取最大值
但参数量、涉及神经元数量 翻倍
6.2 数据预处理
标准类型:零均值化(零中心化,常用)、标准差归一化
减去某个通道的均值(容易传送和处理)
6.3 初始化权值
Eg.如果初始值全部赋0,则所有神经元将采取相同操作,即所有神经元将一致
小型网络:小的随机数,标准高斯分布