你可以在我的【幕布】里面查看这篇文章原文,也可以查看对应的思维导图
你可以转载或者保存,如果能注明出处或者点个赞那是最好的啦
感谢!
六种机器学习常用衡量指标
六种机器学习常用衡量指标——分类精度;回归均方误差;查准率、查全率、与F1;对数损失;IOU;检测错误权衡图(Detection error tradeoff(DET))
-
分类精度
-
它是正确预测数与样本总数的比值,同理可见错误率
- 正确率
- 错误率
- 正确率
-
注:只有当属于每个类的样本数量相等时,它才有效
-
如果正确样本数远超过错误样本,则数据不可靠,比如有98%的A类样本和2%的B类样本,预测每个训练样本都属于A类而轻松获得98%的训练准确性
-
在少量样本类被误分类造成很大的损失的情况下,使用精确度指标会带来很大隐患;比如预测罕见但致命的疾病、
-
-
回归均方误差
-
主要用于回归问题
-
yi是示例xi的真实标记。记f(x)为预测结果
-
-
查准率、查全率、与F1
-
真假(T/F)——预测是否正确;正反(P/N)——样本的正反例
-
查准率(准确率)
P=TP/(TP+FP)预测为正例中预测对的。——希望我选出的结果尽可能准,要求严格点 -
查全率(召回率)
R=TP/(TP+FN)正例被预测对的比例。——希望把所有正例都选出来,要求宽松点 -
PR曲线
查准率和查全率是一对矛盾的度量,以Precision为纵轴,Recall为横轴可以画出“PR曲线”,通常一个学习器PR曲线被另一个包围,认为后者优于前者。但交叉的时候就难以断言。合理判断是根据PR下面积
-
平衡点:P=R
-
F1度量
F1度量的一般形式-Fβ,能让表达出对查准率、查全率的不同偏好
-
ROC与AUC
-
ROC(receiver
operatingcharacteristic)全称是“受试者工作特性”曲线。其综合考虑了概率预测排序的质量,体现了学习器在不同任务下的“期望泛化性能”的好坏 -
ROC曲线的纵轴是“真正例率”(TruePositive
Rate,TPR),横轴是“假正例率”(False Positive Rate,FPR) -
真正例率——所有正例中被判断对的,跟查全率数值相同;(正例中被判断为正例的比例)
-
假正例率——所有负例中被判断为正例(判错了的)(负例中被判断为正例的比率)
-
ROC下面积–AUC
-
-
PR曲线与ROC曲线的差异
-
-
对数损失
-
对数损失适用于多类分类,他是通过惩罚错误分类来工作的,分类器必须为样本分配属于每个类的概率。假如有N个样本属于M类,则对数损失的计算如下:
-
yij表示样本i是否属于类别j,Pij表示样本i属于类别j的概率
-
对数损失函数的值域为0到正无穷。损失函数越接近0准确性越高,所以在训练过程中应尽可能减小对数损失函数来提高分类精度
-
-
IOU
- IoU 的全称为交并比(Intersection over Union),通计算的是 “预测的边框”
和 “真实的边框” 的交集和并集的比值
- IoU 的全称为交并比(Intersection over Union),通计算的是 “预测的边框”
-
检测错误权衡图(Detection error tradeoff(DET))
-
表示示错误拒绝率(false reject rate)和错误接受率(false accept
rate)之间的关系,x和y轴一般用log坐标轴表示 -
错误拒绝率(FRR)表示分类错误不接受这个结果
-
错误接受率(FAR)表示分类错误却接受了这个结果
-
简单可以理解为在二分类中,正例判断为负例的比率,与负例被判断为正例的比率之间的关系
-