文章目录
1、 LR的损失函数
最大似然损失函数(MLE)
L
o
s
s
=
−
y
i
∗
l
o
g
(
p
(
x
i
)
)
−
(
1
−
y
i
)
∗
l
o
g
(
1
−
p
(
x
i
)
)
Loss=-y_{i} *log(p(x_{i}))-(1-y_{i})*log(1-p(x_{i}))
Loss=−yi∗log(p(xi))−(1−yi)∗log(1−p(xi))
2、相对熵(KL散度)
D K L ( p ∣ ∣ q ) = ∑ x ( p ( x ) ) ∗ l o g p ( x ) q ( x ) D_{KL}(p\left | \right | q)=\sum_{x}(p(x))*log\frac{p(x)}{q(x)} DKL(p∣∣q)=∑x(p(x))∗logq(x)p(x)
3、交叉熵
H ( p , q ) = − ∑ x p ( x ) ∗ l o g ( q ( x ) ) H(p,q)=- \sum_{x}p(x)*log\left ( q(x) \right ) H(p,q)=−∑xp(x)∗log(q(x))
3.1交叉熵函数与最大似然函数的联系和区别?
区别:交叉熵函数使用来描述模型预测值和真实值的差距大小,越大代表越不相近;似然函数的本质就是衡量在某个参数下,整体的估计和真实的情况一样的概率,越大代表越相近。
联系:交叉熵函数可以由最大似然函数在伯努利分布的条件下推导出来,或者说最小化交叉熵函数的本质就是对数似然函数的最大化。
4、log loss
用于二分类任务
L
o
s
s
=
−
1
N
∗
∑
N
i
=
1
(
(
y
i
∗
l
o
g
(
p
i
)
+
(
1
−
y
i
)
∗
l
o
g
(
1
−
p
i
)
)
Loss=- \frac{1}{N}*\sum_{N}^{i=1} ((y_{i}*log(p_{i})+(1-y_{i})*log(1-p_{i}))
Loss=−N1∗∑Ni=1((yi∗log(pi)+(1−yi)∗log(1−pi))
缺点:每一次梯度回传对每一个类别具有相同的关注度,容易受类别不平衡的影响。
5、均方误差(Mean Squared Error)
均方误差是指参数估计值与参数真值之差平方的期望值; MSE可以评价数据的变化程度,MSE的值越小,说明预测模型描述实验数据具有更好的精确度。
通常用来做回归问题的代价函数。
M
S
E
=
1
N
∑
i
=
1
N
(
y
(
i
)
−
f
(
x
(
i
)
)
)
2
MSE = \frac{1}{N} \sum_{i=1}^N (y^{(i)} - f(x^{(i)}))^2
MSE=N1∑i=1N(y(i)−f(x(i)))2
6、均方根误差
均方根误差是均方误差的算术平方根,能够直观观测预测值与实际值的离散程度。
通常用来作为回归算法的性能指标。
R
M
S
E
=
1
N
∑
i
=
1
N
(
y
(
i
)
−
f
(
x
(
i
)
)
)
2
RMSE = \sqrt{\frac{1}{N} \sum_{i=1}^N (y^{(i)} - f(x^{(i)}))^2 }
RMSE=N1∑i=1N(y(i)−f(x(i)))2
7、平均绝对误差
平均绝对误差是绝对误差的平均值 ,平均绝对误差能更好地反映预测值误差的实际情况。
通常用来作为回归算法的性能指标。
M
A
E
=
1
N
∑
i
=
1
N
∣
y
(
i
)
−
f
(
x
(
i
)
)
∣
MAE = \frac{1}{N} \sum_{i=1}^N |y^{(i)} - f(x^{(i)})|
MAE=N1∑i=1N∣y(i)−f(x(i))∣
8、focal loss
alpha用于平衡正负样本不均的问题。
gamma调节简单样本权重降低的速率,当gamma为0时即为交叉熵损失函数,当gamma增加时,调整因子的影响也在增加。实验发现gamma为2是最优。