关于模型的测评方法和指标选择

最新推荐文章于 2024-07-23 09:31:22 发布

清成尊者

最新推荐文章于 2024-07-23 09:31:22 发布

阅读量1.8k

点赞数

分类专栏：模型测评文章标签：机器学习深度学习

本文链接：https://blog.csdn.net/yangqinglin193/article/details/113552493

版权

模型测评专栏收录该内容

1 篇文章 0 订阅

订阅专栏

在这里插入图片描述

常用评价指标（P\R\F-score）

精确率（precision）：预测为正确的样本中，原本就是对的的比例（越大越好，趋近于1为理想状态）
召回率（recall）:原本为正确的样本中，通过模型预测为正确的比例（越大越好，趋近于1为理想状态）
F-score：综合评价精确率和召回率的指标，2/(精确率的倒数+召回率的倒数），越大越好，为1的时候说明精确率和召回率都达到最大值

其他指标

准确率：针对整体样本空间而言，模型预测正确（对的预测为对，错的预测为错）占整个样本空间的比例（越大越好）
FP：真实值为错，预测为对，占样本比率（越小越好）；推广：预测结果和真实结果相反占据的比例
TP：原本是正确的，预测也是正确的比率（越大越好）；推广：预测结果和真实结果相同占据的比例

RP 曲线（Precision-Reback）

精确率和召回率曲线：以R为横坐标，Ｐ为纵坐标，调整分类阈值，得到每个RP点，获得最后的RP曲线；因为在预测问题中，通常返回为概率预测，受阈值的影响，因此不同的阈值对应了不同的ＲＰ值。
评价模型的好坏，通常的指标是，RP曲线越接近坐标（１，１）的位置越好。如果一个模型的ＲＰ曲线完全包裹另一个，说明此模型效果好
如果面积重叠无法比较：则可以通过平衡点，精确率和召回率相同的时候，对角线点（查准率=查全率，Break-Even Point，BEP）来进行判断，图中说明Ａ模型最优
在这里插入图片描述

ROC和AUC曲线

ROC：二分类问题中的使用较好，衡量模型稳定性。真正率和假正率曲线（TP-FP曲线）；（注意：测试数据集通常是多分类，数据集中包含反例数据）
真正率为纵轴，假正率为横轴，不同的阈值组成点绘制图形，各点反应的指标是，在不同的阈值条件下，这个模型返回的真正率和假正率的值
AUC：ROC的面积积分，取值通常为[０.5 - 1]反应的是一个概率值，表示给定一个样本，在多大的概率下能够判断为正，积分后排除了阈值对真正率的影响；AUC越高说明模型准确率高
Auc和Roc的计算通常在测试数据集中存在正负样本，需要更加精确的进行分类，对模型要求更加严格，不允许错误分类。常用于广告推荐
在这里插入图片描述

KS曲线

以不同阈值为横坐标，TP和FP分别作为纵坐标；画出两条曲线，找到每个阈值下两曲线差值，ＫＳ＝ＭＡＸ（最大差值）
在这里插入图片描述

评价指标的选择

在正负样本量足够的情况下，ROC曲线对模型预测能力的判断较好；
而如果正负样本不均衡的情况下，RP曲线的效果好；
ROC和AUC在正负样本齐全的测试数据集中判断模型的准确率；
RP在测试数据集不均衡的条件下判断模型的表现性能，精确率和泛化能力的同时指针
RP\ROC\AUC曲线，均是排除模型预测阈值的条件下，对模型进行效果进行测评。画制曲线都是通过设定不同的阈值获得对应的坐标，画出曲线。
在这里插入图片描述