[机器学习]模型评估与选择 查准率与查全率 周志华机器学习 笔记

1.错误率 E = a/m,a为分错的样本数,1-a/m成为精度;

2.误差在训练集上的叫“训练误差”,测试集上叫“泛化误差”;

3.过拟合,欠拟合,都是对趋势学习不好的表现;

4.训练方式:留出法,两个互斥的集合s,t,里面正反例的分布应该要均衡,所以在Matlab中用了随机打乱。

5.交叉验证法,每次采用若干子集作为并集,剩下的作为测试集合。

6.查准率P与查全率R:

 

 

查准率:正例中判对为正例的比例,可以这样理解,准就是判得有多准,所以就理解为预测了那么多正例,有多少正例是ok的呢,所以叫查准;

查全率:在原样本为正例的样本里面,有多少预测了确实为正例呢?查全的意思可以理解为覆盖率,就是我需要你预测这么多正例,你最终能预测多少正例;

P和R看公式计算即可。

 

西瓜书中周教授说R和P两者是矛盾,我试了一下你在上图中把TP的比例提高,看起来P和R率都会增加,但是我这个假设是不对的,如果单纯的TP提高,证明了你的分类器变牛逼了,这是在后期调优的时候不太可能出现的大幅度跃进,所以合理的情况应该是:TP,FP同时增大,同时FN,TN减少;或者TP,FP同时减少,FN,TN增大。

所以结果就是,

  1. 如果查准率要变大,则不可能TP,FP同时变大(因为想判正例越多出错率只会越多),只能是TP变小,FP变小的幅度更大,造成P值变大(本质就是分类器通过缩小自己判正例的把握,来获得更精准的判定,这个原理这里不能详细解释,是一般的经验现象),这样子才能提高查准率,此时查全率就会变小了;

  2. 查全率的分析跟1)反向即可;

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值