分类问题的评价指标

最新推荐文章于 2024-03-04 15:26:45 发布

zhuimeng999

最新推荐文章于 2024-03-04 15:26:45 发布

阅读量7.2k

点赞数 1

文章标签：机器学习人工智能深度学习

本文链接：https://blog.csdn.net/zhuimeng999/article/details/80292412

版权

姓名：Jyx
描述：人工智能学习笔记

分类问题同回归问题一样，也可以采用损失函数作为评价指标，
**一、**以损失函数作为评价指标
1.1 logistic／负log似然损失（log_loss):
$-\frac{1}{N} \sum_{i=1}^{N} \sum_{j = 1}^My_{ij}\log{p_{ij}} \\ \begin{aligned} y_{ij} = \begin{cases} 1, \quad i\neq j \\ 0, \quad i=j \end{cases} \end{aligned}, p_{ij}\text{代表预测为}i\text{类实际为第}j\text{类的概率,N代表样本数，M代表类别数}$
1.2 0-1损失
$MCE=-\frac{1}{N}\sum_{\hat{y_i}\neq y_i}1$
二、混淆矩阵
针对分类问题特有的评价指标
2.1 混淆矩阵

	$pred_1$	$pred_0$	$\sum$
$real_1$	TP	FN	$N_+$
$real_0$	FP	TN	$N_-$
$\sum$	$\hat{N}_+$	$\hat{N}_-$

精度(accuracy)： $accuracy=\frac{TP+TN}{N}$
错误率(error rate): $error\ rate =\frac{FP+FN}{N}$
$\begin{aligned} &PPV(positive\ predictive\ value)=\frac{TP}{TP + FN}=\frac{TP}{\hat{N}_+},\text{预测结果为真的样本中真正为真的比例} \\ &FDR(false\ discover\ rate)=\frac{FN}{TP+FN}=1 - PPV \\ &TPR=\frac{TP}{N_+} \ \ \ ,\text{预测为真的样本中真正为真的样本占真正为真的的样本的比例，又称为}recall \\ &FPR=\frac{FP}{N_-} \ \ \ ,\text{预测结果将多少假的样本预测成了真} \end{aligned}$
一点分析：f1 socre 与FPR, TPR之间的关系，
$\begin{aligned} &\text{ 假定}N_p\text{代表样本中真正的正样本个数，}N_n\text{代表样本中真正的负样本个数} \\ &PPV=\frac{TP}{TP+FP}=\frac{N_p\mathrm{TPR}}{N_p\mathrm{TPR}+N_n\mathrm{FPR}} \\ &\mathrm{f1\ score} = \frac{2}{\frac{1}{PPV}+\frac{1}{TPR}}=\frac{2\, \mathrm{N_p}\, \mathrm{TPR}}{\mathrm{N_p} + \mathrm{N_p}\, \mathrm{TPR} + \mathrm{FPR}\, \mathrm{N_n}} \\ &\text{令}\alpha=\frac{N_n}{N_p},\text{则} \\ &\mathrm{f1\ socre}=\frac{2\, \mathrm{TPR}}{1 + \mathrm{TPR} + \alpha \mathrm{FPR}} \end{aligned}$
参考wiki Positive and negative predictive values，Sensitivity and specificity
F1 score 是recall与precision的调和平均值,
即：
$f1\ score = \frac{2}{\frac{1}{recall}+\frac{1}{precision}}=\frac{2}{\frac{1}{TPR}+\frac{1}{PPV}}$
2.2 ROC, Receiver operating characteristic
对于某一特定的算法，在给定不同分类阈值的情况下得到一系列TPR,FPR,以FPR为横坐标，TPR为纵坐标绘图，得到的就是ROC曲线，曲线下的面积就是AUC，对于不同的算法，一般而言auc越高的算法性能越好
这里写图片描述
$\mathrm{AUC} = \int_0^1\mathrm{TPR}\mathrm{d}\mathrm{FPR}$

2.3 PR(Precision and recall) 曲线
负样本非常多，因此 $\mathrm{FPR}=\mathrm{FP}/N_-$ 总是很小，考察TPR和FPR不是很有意义，这是候我们就只讨论正样本，考察TPR（recall）和PPV(pricision).,

2.4 PR curve
PR 曲线信息检索中定义的一种曲线，并不适用于一般的分类问题。假定k为每次检索返回的信息条目数量，很显然，根据我们的定义recall将随k的增大而增大，precision将随k的增大而减小。在不同的k下得到一组recall，pricision值，绘制在同一坐标系中就是PR曲线。
PR curve
AP（average pricision): PR曲线下的面积就是AP
MAP(mean average pricision): 对多次查询得到的AP进行平均就是MAP
AP@K: 不计算全部，只计算pricision最高的前k个的AP
MAP@K多次查询AP@K的平均值

zhuimeng999

关注

1
点赞
踩
9

收藏

觉得还不错? 一键收藏
1
评论
分类问题的评价指标

分类问题同回归问题一样，也可以采用损失函数作为评价指标，一、以损失函数作为评价指标 1.1 logistic／负log似然损失（log_loss): −logloss=−1N∑i=1N∑j=1Myijlogpijyij={1,i≠j0,i=j,pij代表预测为i类实际为第j类的概率,N代表样本数，M代表类别数(1190)(1190)−logloss=−1N∑i=1N∑j=1Myijl...
复制链接

扫一扫