1.Sigmoid
1. 取值为[0, 1]
2. 非零中心函数,导数恒大于零,易造成锯齿形路径(zig-zag path)影响收敛速度
3. 绝对值较大时导数约等于0,造成梯度饱和,影响神经网络的收敛
4. exp计算成本大
* sigmoid函数适用于二分类问题的输出,softmax函数适用于多类别分类问题
2.Tanh
1. 取值范围[-1, 1]
2. 零中心
3. 同样易造成梯度饱和
3.ReLU(Rectified Linear Unit) → 𝒇(𝒙) = max(𝟎,𝒙)
1.在+区域无梯度消失问题
2.计算效率高
3.收敛速度快
4.非零中心,在x<0时梯度消失,因此一旦得到0梯度就不再产生任何更新。
→ 初始化时使用略微正的截距(如0.01)
4.Leaky ReLU
(α默认0.01)
1.永远不会饱和,无梯度消失问题
2.计算效率高
3.收敛速度快
5.ELU
1.ReLU 的所有优势:
-- 在+区域无梯度消失问题
-- 计算效率高
-- 收敛速度快
2.接近零的平均输出(?)
3.负状态时饱和,梯度消失
4.exp计算成本大