证明:在多分类问题中,交叉熵损失(cross-entropy loss)定义loss是符合概率的。
证明:
极大似然的表述如下:
softmax函数给出了一个向量
y
^
\hat{\mathbf{y}}
y^,它是一个概率分布,满足
∑
1
q
y
j
^
(
i
)
=
1
\sum_1^q \hat{y_j}^{(i)} = 1
∑1qyj^(i)=1, 我们可以将其视为“对给定任意输入的每个类的条件概率”。 例如
P
(
y
=
猫
∣
x
)
P(y=\text{猫} \mid \mathbf{x})
P(y=猫∣x) 。 假设整个数据集
{
X
,
Y
}
\{\mathbf{X}, \mathbf{Y}\}
{X,Y} 具有
n
n
n 个样本, 其中索引
i
i
i 的样本由特征向量
x
(
i
)
\mathbf{x}^{(i)}
x(i) 和独热标签向量
y
(
i
)
\mathbf{y}^{(i)}
y(i) 组成。
上述样本出现的概率:
P
(
Y
∣
X
)
=
∏
i
=
1
n
P
(
y
(
i
)
∣
x
(
i
)
)
.
P(\mathbf{Y} \mid \mathbf{X}) = \prod_{i=1}^n P(\mathbf{y}^{(i)} \mid \mathbf{x}^{(i)}).
P(Y∣X)=i=1∏nP(y(i)∣x(i)).
根据最大似然估计,我们最大化 P ( Y ∣ X ) P(\mathbf{Y} \mid \mathbf{X}) P(Y∣X),相当于最小化负对数似然:
− log P ( Y ∣ X ) = ∑ i = 1 n − log P ( y ( i ) ∣ x ( i ) ) = ∑ i = 1 n l ( y ( i ) , y ^ ( i ) ) , -\log P(\mathbf{Y} \mid \mathbf{X}) = \sum_{i=1}^n -\log P(\mathbf{y}^{(i)} \mid \mathbf{x}^{(i)}) = \sum_{i=1}^n l(\mathbf{y}^{(i)}, \hat{\mathbf{y}}^{(i)}), −logP(Y∣X)=i=1∑n−logP(y(i)∣x(i))=i=1∑nl(y(i),y^(i)),
其中,对于任何标签和模型预测
y
\mathbf{y}
y,损失函数为
y
^
\hat{\mathbf{y}}
y^:
l
(
y
,
y
^
)
=
−
∑
j
=
1
q
y
j
log
y
^
j
.
l(\mathbf{y}, \hat{\mathbf{y}}) = - \sum_{j=1}^q y_j \log \hat{y}_j.
l(y,y^)=−j=1∑qyjlogy^j.
可以得到
P
(
y
(
i
)
∣
x
(
i
)
)
P(\mathbf{y}^{(i)} \mid \mathbf{x}^{(i)})
P(y(i)∣x(i)) 的定义
P
(
y
(
i
)
∣
x
(
i
)
)
=
exp
(
∑
j
=
1
q
y
j
(
i
)
⋅
log
(
y
j
^
(
i
)
)
)
P(\mathbf{y}^{(i)} \mid \mathbf{x}^{(i)}) = \exp(\sum_{j=1}^q y_j^{(i)} \cdot \log(\hat{y_j}^{(i)}))
P(y(i)∣x(i))=exp(j=1∑qyj(i)⋅log(yj^(i)))
下面说明
P
(
y
(
i
)
∣
x
(
i
)
)
P(\mathbf{y}^{(i)} \mid \mathbf{x}^{(i)})
P(y(i)∣x(i)) 定义符合概率定义。
1
。
1^。
1。
P
(
y
(
i
)
∣
x
(
i
)
)
P(\mathbf{y}^{(i)} \mid \mathbf{x}^{(i)})
P(y(i)∣x(i)) >
0
0
0 是显然的。
2
。
2^。
2。
y
(
i
)
y^{(i)}
y(i) 是独热码,遍历所有
y
(
i
)
y^{(i)}
y(i) 的可能性如下:
y
1
(
i
)
y
2
(
i
)
.
.
.
y
n
(
i
)
1
0
.
.
.
0
0
1
.
.
.
0
.
.
.
.
.
.
.
.
.
.
.
.
0
0
.
.
.
1
\begin{array}{ccc} y_1^{(i)} & y_2^{(i)} & ... & y_n^{(i)} \\ \hline 1&0 & ... &0\\ 0&1 & ... &0\\ ...&... & ... &...\\ 0&0 & ... &1\\ \end{array}
y1(i)10...0y2(i)01...0...............yn(i)00...1
在
y
(
i
)
y^{(i)}
y(i) 的
q
q
q 个可能上对
P
(
y
(
i
)
∣
x
(
i
)
)
P(\mathbf{y}^{(i)} \mid \mathbf{x}^{(i)})
P(y(i)∣x(i)) 积分
∑
y
(
i
)
P
(
y
(
i
)
∣
x
(
i
)
)
=
∑
j
q
exp
(
log
(
y
j
^
(
i
)
)
)
=
∑
1
q
y
j
^
(
i
)
=
1
\begin{alignedat}{3} \sum_{y^{(i)}} P(\mathbf{y}^{(i)} \mid \mathbf{x}^{(i)}) & = \sum_j^q \exp(\log(\hat{y_j}^{(i)}))\\ & = \sum_1^q \hat{y_j}^{(i)}\\ & = 1\\ \end{alignedat}
y(i)∑P(y(i)∣x(i))=j∑qexp(log(yj^(i)))=1∑qyj^(i)=1