对TensorFlow中tf.nn.softmax()函数机器损失函数的理解

Softmax函数,或称归一化指数函数,是逻辑函数的一种推广。它能将一个含任意实数的K维向量A “压缩”到另一个K维实向量 A’ 中,使得A’ 每一个元素的范围都在(0,1)之间,并且所有元素的和为1。

该函数的形式可以按下面的式子给出:
在这里插入图片描述
可能大家一看到公式就有点晕了,别被吓跑,我来简单解释一下。这个公式的意思就是说得到的A’向量中的每个元素的值,是由A中对应元素的指数值除以A中所有元素的指数值的总和。

举个例子:假设你的A =[1,2,3],那么经过softmax函数后就会得到A’ = [0.09, 0.24, 0.67],A’的三个元素分别是怎么来的呢?

A’的第1个元素 = exp(1) / (exp(1) + exp(2) + exp(3)) = 0.09

A’的第2个元素 = exp(2) / (exp(1) + exp(2) + exp(3)) = 0.24

A’的第3个元素 = exp(3) / (exp(1) + exp(2) + exp(3)) = 0.67

由于Softmax函数的这个特点,经常会被用在神经网络来解决分类问题中,得到的结果就可以认为是满足各种分类的概率。

在采用神经网络在解决问题时,我们还必须用到损失函数,在弄懂了Softmax函数本身之后,让我们再来看看Softmax的损失函数

在这里插入图片描述

我们知道,log 函数在输入小于1的时候是个负数,而且是递增函数,所以,如果我们在前面增加一个负号(-),这个损失函数的值越小,也就意味着A’j的取值越大。在处理分类问题时,也就代表满足这种分类的概率也就越高。

再举个机器学习中会碰到的例子吧:

假设一个5分类问题,一个样本Y的标签 y=[0,0,0,1,0],也就是说样本Y的真实标签是4,假设模型预测的结果概率(softmax的输出)p=[0.1,0.15,0.05,0.6,0.1],可以看出这个预测是对的,那么对应的损失L=-log(0.6)。那么假设p=[0.15,0.2,0.4,0.1,0.15],这个预测结果就很离谱了,因为真实标签是4,而你觉得这个样本是4的概率只有0.1(远不如其他概率高,如果是在测试阶段,那么模型就会预测该样本属于类别3),对应损失L=-log(0.1)。好吧,我们再假设 p=[0.05,0.15,0.4,0.3,0.1],这个预测结果虽然也错了,但是没有前面那个那么离谱,对应的损失L=-log(0.3)。根据上面所说的log函数的特性,我们可以知道 -log(0.6) < -log(0.3) < -log(0.1)。简单讲就是预测错的约离谱,损失越大,预测越准确,损失越小。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值