评价指标(分类指标)
对学习器的泛化性能进行评估,不仅仅需要有效可行的实验估计方法,还需要有衡量模型泛华能力的评价标准,这就是性能度量。我们通常会根据不同的业务选出适合的业务指标。
评价指标大概有
1、回归的有:RMSE(平方根误差)、MAE(平均绝对误差)、MSE(平均平方误差)、Coefficient of determination (决定系数)。
2、分类的有:精度、召回率、精确率、F值、ROC-AUC 、混淆矩阵、PRC。
3、聚类的有:兰德指数、互信息、轮廓系数。
分类
1.精度(Accuracy)
意义:被正确分类的样本占总样本的比。
优点:简单
缺点:精度只是简单地计算出比例,但是没有对不同类别进行区分。因为不同类别错误代价可能不同。例如:判断这个病人是不是病危,如果不是病危错误判断为病危,那只是损失一点医务人员的时间和精力,如果是把病危的人判断为非病危状态,那损失的就是一条人命。他们之间存在重要性差异,这时候就不能用精度。对于样本不均衡的情况,也不是用精度来衡量。例如:有A类1000个,B类5个,如果我把这1005个样本都预测成A类,正确率=1000/1005=99.5%。
- 混淆矩阵
*混淆矩阵(Confusion Matrix)*
预测为正样本 | 预测为负样本 | |
---|---|---|
标签为正样本 | TP(True Positive对的正样本) | FN(false Negative错的负样本) |
标签为负样本 | FP(False Positive错的正样本) | TN(true Negative 对的负样本) |
(1).True Postitve Rate(真正率):正样本中被预测对比例。