证明:在多分类问题中,交叉熵损失(cross-entropy loss)定义loss是符合概率的。
证明:
极大似然的表述如下:
softmax函数给出了一个向量 y ^ \hat{\mathbf{y}} y^,它是一个概率分布,满足 ∑ 1 q y j ^ ( i ) = 1 \sum_1^q \hat{y_j}^{(i)} = 1 ∑1qyj^(i)=1, 我们可以将其视为“对给定任意输入的每个类的条件概率”。 例如 P ( y = 猫 ∣ x ) P(y=\text{猫} \mid \mathbf{x}) P(y=猫∣x) 。 假设整个数据集 { X , Y } \{\mathbf{X}, \mathbf{Y}\} {
X,Y} 具有 n n n 个样本, 其中索引 i i i 的样本由特征向量 x ( i ) \mathbf{x}^{(i)} x(i) 和独热标签向量 y ( i ) \mathbf{y}^{(i)} y(i) 组成。
上述样本出现的概率:
P ( Y ∣ X ) = ∏ i = 1 n P ( y ( i ) ∣ x ( i ) ) . P(\mathbf{Y} \mid \mathbf{X}) = \prod_{i=1}^n P(\mathbf{y}^{(i)} \mid \mathbf{x}^{(i)}). P(Y∣X)=i=1∏nP(y(i)∣x(i)).
根据最大似然估计,我们最大化 P ( Y ∣ X ) P(\mathbf{Y} \mid \mathbf{X}) P(Y∣X),相当于最小化负对数似然:
− log P ( Y ∣ X ) = ∑ i =