Softmax函数,或称归一化指数函数,是逻辑函数的一种推广。它能将一个含任意实数的K维向量A “压缩”到另一个K维实向量 A’ 中,使得A’ 每一个元素的范围都在(0,1)之间,并且所有元素的和为1。
该函数的形式可以按下面的式子给出:
可能大家一看到公式就有点晕了,别被吓跑,我来简单解释一下。这个公式的意思就是说得到的A’向量中的每个元素的值,是由A中对应元素的指数值除以A中所有元素的指数值的总和。
举个例子:假设你的A =[1,2,3],那么经过softmax函数后就会得到A’ = [0.09, 0.24, 0.67],A’的三个元素分别是怎么来的呢?
A’的第1个元素 = exp(1) / (exp(1) + exp(2) + exp(3)) = 0.09
A’的第2个元素 = exp(2) / (exp(1) + exp(2) + exp(3)) = 0.24
A’的第3个元素 = exp(3) / (exp(1) + exp(2) + exp(3)) = 0.67
由于Softmax函数的这个特点,经常会被用在神经网络来解决分类问题中,得到的结果就可以认为是满足各种分类的概率。
在采用神经网络在解决问题时,我们还必须用到损失函数,在弄懂了Softmax函数本身之后,让我们再来看看Softmax的损失函数
我们知道,log 函数在输入小于1的时候是个负数,而且是递增函数,所以,如果我们在前面增加一个负号(-),这个损失函数的值越小,也就意味着A’j的取值越大。在处理分类问题时,也就代表满足这种分类的概率也就越高。
再举个机器学习中会碰到的例子吧:
假设一个5分类问题,一个样本Y的标签 y=[0,0,0,1,0],也就是说样本Y的真实标签是4,假设模型预测的结果概率(softmax的输出)p=[0.1,0.15,0.05,0.6,0.1],可以看出这个预测是对的,那么对应的损失L=-log(0.6)。那么假设p=[0.15,0.2,0.4,0.1,0.15],这个预测结果就很离谱了,因为真实标签是4,而你觉得这个样本是4的概率只有0.1(远不如其他概率高,如果是在测试阶段,那么模型就会预测该样本属于类别3),对应损失L=-log(0.1)。好吧,我们再假设 p=[0.05,0.15,0.4,0.3,0.1],这个预测结果虽然也错了,但是没有前面那个那么离谱,对应的损失L=-log(0.3)。根据上面所说的log函数的特性,我们可以知道 -log(0.6) < -log(0.3) < -log(0.1)。简单讲就是预测错的约离谱,损失越大,预测越准确,损失越小。