使用cross-entropy (交叉熵)定义loss的概率意义

文章讨论了在多分类问题中,如何使用交叉熵损失函数来符合概率的定义。通过softmax函数,可以得到一个概率分布,表示每个类别的条件概率。最大似然估计则要求我们最大化样本出现的概率,这等价于最小化负对数似然。损失函数定义为每个样本的真实标签与模型预测之间的交叉熵。通过计算,证明了这种定义符合概率的归一化条件,即所有类别的概率之和为1。
摘要由CSDN通过智能技术生成

证明:在多分类问题中,交叉熵损失(cross-entropy loss)定义loss是符合概率的。
证明:
极大似然的表述如下:
softmax函数给出了一个向量 y ^ \hat{\mathbf{y}} y^,它是一个概率分布,满足 ∑ 1 q y j ^ ( i ) = 1 \sum_1^q \hat{y_j}^{(i)} = 1 1qyj^(i)=1, 我们可以将其视为“对给定任意输入的每个类的条件概率”。 例如 P ( y = 猫 ∣ x ) P(y=\text{猫} \mid \mathbf{x}) P(y=x) 。 假设整个数据集 { X , Y } \{\mathbf{X}, \mathbf{Y}\} { X,Y} 具有 n n n 个样本, 其中索引 i i i 的样本由特征向量 x ( i ) \mathbf{x}^{(i)} x(i) 和独热标签向量 y ( i ) \mathbf{y}^{(i)} y(i) 组成。
上述样本出现的概率:
P ( Y ∣ X ) = ∏ i = 1 n P ( y ( i ) ∣ x ( i ) ) . P(\mathbf{Y} \mid \mathbf{X}) = \prod_{i=1}^n P(\mathbf{y}^{(i)} \mid \mathbf{x}^{(i)}). P(YX)=i=1nP(y(i)x(i)).

根据最大似然估计,我们最大化 P ( Y ∣ X ) P(\mathbf{Y} \mid \mathbf{X}) P(YX),相当于最小化负对数似然:

− log ⁡ P ( Y ∣ X ) = ∑ i =

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值