文章内容及图片均来自 视频地址
sigmoid
分类结果归一化,可以解决二分类即是或不是的问题。也可以用于多分类,要求分类标签非互斥。比如一篇文章是玄幻的概率为 80%,是悬疑的概率为 60%,80%+60%>100%,玄幻和悬疑并不矛盾,文章既可以是玄幻的,也可以是悬疑的。
s i g m o i d ( z ) = 1 1 + e − z sigmoid(z)=\frac{1}{1+e^{-z}} sigmoid(z)=1+e−z1
但 sigmoid 当数值较大时并不敏感(见虚线框内),反向传播时会产生梯度消失,所以有人使用 ReLU 代替 sigmoid。
![]() | ![]() |
softmax
多个分类结果归一化,且归一化和为零。可以用于多分类,要求分类标签互斥。比如一张图片中的动物是猫的概率为 80%,是狗的概率为 20%,80%+20%=100%,猫和狗是矛盾的,只能是猫或者狗。
[ z 1 z 2 . . . z n ] \begin{bmatrix} z_1 \\ z_2 \\ ... \\ z_n \end{bmatrix} ⎣⎢⎢⎡z1z2...zn⎦⎥⎥⎤ s o f t m a x ( z i ) = e z i ∑ k = 1 n e z k softmax(z_i)=\frac{e^{z_{_i}}}{\sum_{k=1}^ne^{z_{_k}}} softmax(zi)=∑k=1nezkezi