Logistic softmax 分类

Logistic softmax 分类

一、交叉熵损失函数

1、信息量

信息奠基人香农(Shannon)认为“信息是用来消除随机不确定性的东西”,也就是说衡量信息量的大小就是看这个信息消除不确定性的程度。

消除概率越小的事件的不确定性,信息量越大
比如 成功中彩票

设某一事件概率为 P(x), 则信息量为
I(x)=-log(P(x))
log 以 e 为底数
 

2、信息熵

信息熵表示所有信息量的期望

H(x)=-\displaystyle\sum_{i=1}^NP(x)log(P(x))

3、相对熵(KL散度)

如果对于同一个变量 X 有两个单独的概率分布 P(x), Q(x) ,则可以用KL散度来衡量两个分布之间的差异

D_{KL}(p||q)=\displaystyle\sum_{i=1}^Np(x_i)log(\cfrac{p(x_i)}{q(x_i)})

在机器学习中,p(x_i) 代表真实分布,q(x_i) 代表预测分布

4、交叉熵

DK散度=

\displaystyle\sum_{i=1}^Np(x_i)log(p(x_i)) - \displaystyle\sum_{i=1}^Np(x_i)log(q(x_i)) \\ = -H(x)+\bigg(-\displaystyle\sum_{i=1}^Np(x_i)log(q(x_i))\bigg) \\ =\bigg(-\displaystyle\sum_{i=1}^Np(x_i)log(q(x_i))\bigg)-H(x)

KL散度=交叉熵-信息熵

所以交叉熵=

H(p,q)=-\displaystyle\sum_{i=1}^Np(x_i)log(q(x_i))


在机器学习的过程中,信息熵是个常量,所以只要计算交叉熵


二、Softmax

1、Softmax公式

a_i=\frac{e^{Z_i}}{ \displaystyle\sum_{k=1}^{N} e^{Z_k}}

Z_i=\omega_i ^T x

可以看作是一个没有隐层的神经网络,softmax作为激活函数

2、交叉熵损失函数

L=-\displaystyle\sum_{j}y_j loga_i

求导:

\frac{\partial L}{\partial \omega_i}=-\displaystyle\sum_{j}y_j\frac{1}{a_i}\frac{\partial a_i}{\partial \omega_i}

\frac{\partial a_i}{\partial \omega_i}  分两种情况

第一种:i=j 

以上图为例,\frac{e^{y_1}}{e^{y_1}+e^{y_2}+e^{y_3}} 对 y_1 求偏导。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

xch529030645

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值