1.什么是分类准确率?
评价分类器性能的指标一般是分类准确率(Accuracy),其定义是:对于给定的测试数据集,分类器正确分类的样本数和总样本数之比。
对于二分类问题常见的评价指标是精确率(precision)与召回率(recall)。
通常以关注的类为正类,其他类为负类,分类器在测试数据集上的预测或正确或不正确,四种情况出现的总数分别记作:
TP ——将正类预测为正类数(True Positive)
FN ——将正类预测为负类数(False Negative)
FP ——-将负类预测为正类
TN ——-将负类预测为负类数
2.什么是精确率?
精确率定义为:
3.什么是召回率?
召回率定义为:
4.什么是F1值?
F1值:是精确率和召回率的调和均值
精确率和召回率都高时,F1值也会高。
预测值与实际值的差别:
假设原始样本中有两类,其中:
1:总共有 P个类别为1的样本,假设类别1为正例。
2:总共有N个类别为0 的样本,假设类别0为负例。
经过分类后:
3:有 TP个类别为1 的样本被系统正确判定为类别1,FN 个类别为1 的样本被系统误判定为类别 0,显然有P=TP+FN;
4:有 FP 个类别为0 的样本被系统误判断定为类别1,TN 个类别为0 的样本被系统正确判为类别 0,显然有N=FP+TN;
注意:准确率和召回率是互相影响的,理想情况下肯定是做到两者都高,但是一般情况下准确率高、召回率就低,召回率低、准确率高,当然如果两者都低,那是什么地方出问题了 。一般情况,用不同的阀值,统计出一组不同阀值下的精确率和召回率,如下图:
在两者都要求高的情况下,可以用F1来衡量。