机器学习——性能度量|DAY2

在预测任务中给定样例集D={(x1,y1),(x2,y2)……,(xm,ym)},其中yi是xi的真实标记,要评估学习器f的性能,就要把学习器预测结果f(x)与真实标记y进行比较。

回归任务最常用的性能度量是“均方误差”(mean squared error)

E(f;D)=\frac{1}{m}\sum (f(xi)-yi)^{2}

就是“均 方 差”  (个人感觉类似于高中方差?)

更一般的,对于数据分布D和概率密度函数p(x),均方误差可描述为

E(f;D)=\int (f(x)-y)^{2}p(x)d(x)

其实也就是将离散转化为连续。

2.1 错误率与精度

错误率和精度是分类任务中最常用的两种性能度量,既适用于二分类任务,也适用于多分类任务,错误率是分类错误的样本数占样本总数的比例,精度则是分类正确的样本数占样本总数的比例,对样例集D,分类错误率定义为:

E(f;D)=\frac{1}{m}\sum_{i=1}^{m}\prod (f(xi)\neq yi)

此处的连乘符号代表指示函数,若括号中的内容为真,则值取1,否则取值0;

精度则定义为

acc(f;D)=\frac{1}{m}\sum_{i=1}^{m}\prod (f(xi)=yi)=1-E(f;D)

更一般的,对于数据分布D和概率密度p(x),错误率与精度可分别描述为

E(f;D)=\int \prod (f(x)\neq y)p(x)dx

acc(f;D)=1-E(f;D)

2.2查准率查全率与F1

以西瓜问题为例,农夫拉来了一车西瓜,我们用训练好的模型进行判别,但我们关注的是真的是预测的对错吗?比如真的烂瓜是否被预测正确为烂瓜?仔细想想不是的,因为我们最终的目的是——买到好瓜,我们关心的问题应该是,“我们通过模型挑出的西瓜(即模型认为是好瓜)的西瓜中,有多少比例是真好瓜”或者是“所有好瓜中有多少比例被我们通过模型挑了出来”;

类似的需求在信息检索、Web搜索中等应用中经藏出现,例如在信息检索领域,我们经常会关心“检索出的信息中有多少比例是用户感兴趣的”  “用户感兴趣的信息有多少被检索出来了

查准率,查全率,就是两种更适用于此类需求的性能度量。

对于二分类问题,可将样例根据其真实类别与学习器预测类别的组合划分为

真正例(True positive)假正例(False positive)

真反例(True negative) 假反例(False negative)

这四种情形,利用缩写TP FP TN FN 来分别表示上面的四种情况,TP+FP+TN+FN=样例总数

分类结果的混淆矩阵如图所示

预测结果预测结果
真实情况正例反例
正例TP  (真正例)FN(假反例)
反例FP(假正例)

TN(假正例)

查准率和查全率是一对矛盾的度量,一般来说,查准率高时查全率低,查全率高时查准率低,通常只有在一些简单任务钟,才可能使查全率和查准率都很高。

我们根据学习器的预测结果对样例进行排序,排在千米按的是学习器认为最可能是正例的样本,排在最后的是最不可能是正例的样本。按此顺序逐个把样本作为正例进行预测,则每次可以计算出当前的查准率和查全率得到曲线,简称P-R曲线

若一个学习器的PR曲线完全在另一个PR曲线的上方 ,则可断言前一个学习器的性能优于后者,如图中的A曲线和C曲线,对于同样的样本数据,学习器A的查准率和查全率总是高于学习器C,然而一般很难出现完全优于的情况,更多的会是像A,B一样,在不同的样本例子上,会体现出各自不同的忧虑,但人们仍然希望能够比较两个学习器性能的高低,因此人们选择了一个比较合理的判定依据是比较P-R曲线下面积的大小。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值