交叉上函数的对应公式
L
=
−
[
y
l
o
g
y
^
+
(
1
−
y
)
l
o
g
(
1
−
y
^
)
]
L=-[ylog\ \hat y+(1-y)log\ (1-\hat y)]
L=−[ylog y^+(1−y)log (1−y^)]
1.交叉熵损失函数的数学原理
在二分类问题模型:例如逻辑回归「Logistic Regression」、神经网络「Neural Network」等,真实样本的标签为 [0,1],分别表示负类和正类。模型的最后通常会经过一个 Sigmoid 函数,输出一个概率值,这个概率值反映了预测为正类的可能性:概率越大,可能性越大。
Sigmoid函数的表达式和图形如下所示:
g
(
s
)
=
1
1
+
e
−
s
g(s)=\frac{1}{1+e^{-s}}
g(s)=1+e−s1
对应的图像如下:
其中 s 是模型上一层的输出,Sigmoid 函数有这样的特点:s = 0 时,g(s) = 0.5;s >> 0 时, g ≈ 1,s << 0 时,g ≈ 0。显然,g(s) 将前一级的线性输出映射到 [0,1] 之间的数值概率上。这里的 g(s) 就是交叉熵公式中的模型预测输出 。
预测输出即Sigmoid函数的输出表征了当前样本标签为1的概率:
y
^
=
P
(
y
=
1
∣
x
)
\hat y=P(y=1|x)
y^=P(y=1∣x)
交叉熵函数理解
最新推荐文章于 2024-01-21 18:21:18 发布