结果评估

机器学习之结果评估

先回顾一下过程
1.数据预处理:数据清洗,数据采样,数据集拆分
2.特征工程:特征编码,特征选择,特征降维,规范化
3.数据建模:回归问题,分类问题,聚类问题,其他问题,开源框架
4.结果评估:拟合度量,查准率,查全率,F1值,PR曲线,ROC曲线

泛化误差:在“未来”样本上的误差
经验误差:在训练集上的误差

训练数据经过训练得到f(x),f(x)应用到未知测试数据

性能评价指标——分类
准确率:是指在分类中分类正确的记录个数占总记录个数的比
召回率:也叫查全率,是指在分类中样本中的正例有多少被测准确了
通常,准确率高时,召回率偏低;召回率高时,准确率偏低
举例:
1.地震的预测
对于地震的预测,我们希望是召回率 非常高,也就是说每次地震我们都希望预测出来,这个时候我们剋牺牲准确率,情愿发出1000次警报,把10次地震都预测正确了,也不希望预测100次,对了8次,漏了2次
2.嫌疑人定罪
基于不错怪一个好人的原则,对于嫌疑人的定罪我们希望是非常准确的,即使有时候放过了一些罪犯(召回率低),但也是值得的
在这里插入图片描述

准确率:分类正确的样本个数占所有样本个数的比例
在这里插入图片描述
平均准确率:每个类别下的准确率的算术平均
在这里插入图片描述
精确率:分类正确的正样本个数占分类器所有的正样本个数的比例
在这里插入图片描述
召回率:分类正确的正样本个数占正样本个数的比例
在这里插入图片描述
F1—Score:精确率与召回率的调和平均值,它的值更接近于precision与Recall中较小的值
在这里插入图片描述
ROC:纵轴:真正例率TPR;横轴:假正例率FPR
AUC:是ROC曲线下的面积,一般来说,如果ROC是光滑的,那么基本可以判断没有太大的overfitting,这个时候调模型可以指看AUC,面积也大,一般认为模型越好
在这里插入图片描述
PR曲线:根据学习器的预测结果按正例可能性大小对样例进行排序,并逐个把样本作为正例进行预测
在这里插入图片描述

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值