Logistic softmax 分类
一、交叉熵损失函数
1、信息量
信息奠基人香农(Shannon)认为“信息是用来消除随机不确定性的东西”,也就是说衡量信息量的大小就是看这个信息消除不确定性的程度。
消除概率越小的事件的不确定性,信息量越大
比如 成功中彩票
设某一事件概率为 , 则信息量为
以 e 为底数
2、信息熵
信息熵表示所有信息量的期望
3、相对熵(KL散度)
如果对于同一个变量 有两个单独的概率分布
,则可以用KL散度来衡量两个分布之间的差异
在机器学习中, 代表真实分布,
代表预测分布
4、交叉熵
DK散度=
KL散度=交叉熵-信息熵
所以交叉熵=
在机器学习的过程中,信息熵是个常量,所以只要计算交叉熵
二、Softmax
1、Softmax公式
可以看作是一个没有隐层的神经网络,softmax作为激活函数
2、交叉熵损失函数
求导:
分两种情况
第一种:i=j
以上图为例, 对
求偏导。