六种机器学习常用衡量指标总结

最新推荐文章于 2021-07-10 14:53:38 发布

Ziko_AI

最新推荐文章于 2021-07-10 14:53:38 发布

阅读量1.3k

点赞数 2

分类专栏：机器学习衡量指标查全率文章标签：深度学习机器学习神经网络

本文链接：https://blog.csdn.net/weixin_43912994/article/details/104603594

版权

8 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

1 篇文章 0 订阅

订阅专栏

你可以在我的【幕布】里面查看这篇文章原文，也可以查看对应的思维导图

你可以转载或者保存，如果能注明出处或者点个赞那是最好的啦

感谢！

六种机器学习常用衡量指标——分类精度；回归均方误差；查准率、查全率、与F1；对数损失；IOU；检测错误权衡图（Detection error tradeoff（DET））

分类精度
- 它是正确预测数与样本总数的比值，同理可见错误率
  - 正确率
  - 错误率
- 注：只有当属于每个类的样本数量相等时，它才有效
- 如果正确样本数远超过错误样本，则数据不可靠，比如有98％的A类样本和2％的B类样本，预测每个训练样本都属于A类而轻松获得98％的训练准确性
- 在少量样本类被误分类造成很大的损失的情况下，使用精确度指标会带来很大隐患；比如预测罕见但致命的疾病、

查准率、查全率、与F1
- 真假（T/F）——预测是否正确；正反（P/N）——样本的正反例
- 查准率（准确率）
  P=TP/（TP+FP）预测为正例中预测对的。——希望我选出的结果尽可能准，要求严格点
- 查全率（召回率）
  R=TP/（TP+FN）正例被预测对的比例。——希望把所有正例都选出来，要求宽松点
- PR曲线
  
  查准率和查全率是一对矛盾的度量，以Precision为纵轴，Recall为横轴可以画出“PR曲线”，通常一个学习器PR曲线被另一个包围，认为后者优于前者。但交叉的时候就难以断言。合理判断是根据PR下面积
- 平衡点：P=R
- F1度量
  
  F1度量的一般形式-Fβ，能让表达出对查准率、查全率的不同偏好
- ROC与AUC
  - ROC（receiver
    operatingcharacteristic）全称是“受试者工作特性”曲线。其综合考虑了概率预测排序的质量，体现了学习器在不同任务下的“期望泛化性能”的好坏
  - ROC曲线的纵轴是“真正例率”（TruePositive
    Rate,TPR）,横轴是“假正例率”（False Positive Rate，FPR）
  - 真正例率——所有正例中被判断对的，跟查全率数值相同；（正例中被判断为正例的比例）
  - 假正例率——所有负例中被判断为正例（判错了的）（负例中被判断为正例的比率）
  - ROC下面积–AUC
- PR曲线与ROC曲线的差异

对数损失
- 对数损失适用于多类分类，他是通过惩罚错误分类来工作的，分类器必须为样本分配属于每个类的概率。假如有N个样本属于M类，则对数损失的计算如下：
- yij表示样本i是否属于类别j，Pij表示样本i属于类别j的概率
- 对数损失函数的值域为0到正无穷。损失函数越接近0准确性越高，所以在训练过程中应尽可能减小对数损失函数来提高分类精度

IOU
- IoU 的全称为交并比（Intersection over Union），通计算的是 “预测的边框”
  和 “真实的边框” 的交集和并集的比值

检测错误权衡图（Detection error tradeoff（DET））
- 表示示错误拒绝率（false reject rate）和错误接受率（false accept
  rate）之间的关系，x和y轴一般用log坐标轴表示
- 错误拒绝率（FRR）表示分类错误不接受这个结果
- 错误接受率（FAR）表示分类错误却接受了这个结果
- 简单可以理解为在二分类中，正例判断为负例的比率，与负例被判断为正例的比率之间的关系