svm中的几个简单术语的意思

13 篇文章 2 订阅

TP  TN FP   FN

True Positive (真正, TP)被模型预测为正的正样本;可以称作判断为真的正确率

True Negative(真负 , TN)被模型预测为负的负样本 ;可以称作判断为假的正确率

False Positive (假正, FP)被模型预测为正的负样本;可以称作误报率

False Negative(假负 , FN)被模型预测为负的正样本;可以称作漏报率

True Positive Rate(真正率 , TPR)或灵敏度(sensitivity) 
   TPR = TP /(TP + FN) 
   正样本预测结果数 / 正样本实际数

True Negative Rate(真负率 , TNR)或特指度(specificity) 
   TNR = TN /(TN + FP) 
   负样本预测结果数 / 负样本实际数

False Positive Rate (假正率, FPR) 
   FPR = FP /(FP + TN) 
   被预测为正的负样本结果数 /负样本实际数

False Negative Rate(假负率 , FNR) 
   FNR = FN /(TP + FN) 
   被预测为负的正样本结果数 / 正样本实际数


转自http://blog.csdn.net/gnuhpc/archive/2009/07/09/4333042.aspx

经常用svm我们可以看到一些基本术语

Recall    Precision     F-measure

下面的这个人的博文讲的比较清楚,引用之

外行人做互联网,很多概念不懂。就拿最基础的“召回率”和“准确率”这种概念,看看网上资料知道大概,自己用的时候,脑子里绕着弯儿能想明白,可碰到别人活用的时候,脑子里还是没法一下子反应过来,还是要绕弯想一下。特地找了些资料,将这两个概念整理一下,希望能更熟练。

召回率和准确率是搜索引擎(或其它检索系统)的设计中很重要的两个概念和指标。
召回率:Recall,又称“查全率”;
准确率:Precision,又称“精度”、“正确率”。

在一个大规模数据集合中检索文档时,可把集合中的所有文档分成四类:

                    相关       不相关

检索到          A                B
未检索到      C                D

A:检索到的,相关的 (搜到的也想要的)
B:检索到的,但是不相关的 (搜到的但没用的)
C:未检索到的,但却是相关的 (没搜到,然而实际上想要的)
D:未检索到的,也不相关的 (没搜到也没用的)

通常我们希望:数据库中相关的文档,被检索到的越多越好,这是追求“查全率”,即A/(A+C),越大越好。
同时我们还希望:检索到的文档中,相关的越多越好,不相关的越少越好,这是追求“准确率”,即A/(A+B),越大越好。

归纳如下:
召回率:检索到的相关文档 比 库中所有的相关文档
准确率:检索到的相关文档 比 所有被检索到的文档

“召回率”与“准确率”虽然没有必然的关系(从上面公式中可以看到),然而在大规模数据集合中,这两个指标却是相互制约的。
由于“检索策略”并不完美,希望更多相关的文档被检索到时,放宽“检索策略”时,往往也会伴随出现一些不相关的结果,从而使准确率受到影响。
而希望去除检索结果中的不相关文档时,务必要将“检索策略”定的更加严格,这样也会使有一些相关的文档不再能被检索到,从而使召回率受到影响。

凡是设计到大规模数据集合的检索和选取,都涉及到“召回率”和“准确率”这两个指标。而由于两个指标相互制约,我们通常也会根据需要为“检索策略”选择一个合适的度,不能太严格也不能太松,寻求在召回率和准确率中间的一个平衡点。这个平衡点由具体需求决定。

其实,准确率(precision,精度)比较好理解。往往难以迅速反应的是“召回率”。我想这与字面意思也有关系,从“召回”的字面意思不能直接看到其意义。
我觉得“召回率”这个词翻译的不够好。“召回”在中文的意思是:把xx调回来。比如sony电池有问题,厂家召回。
既然说翻译的不好,我们回头看“召回率”对应的英文“recall”,recall除了有上面说到的“order sth toreturn”的意思之外,还有“remember”的意思。

Recall:the ability to remember sth. that you have learned or sth.that has happened in the past.

这里,recall应该是这个意思,这样就更容易理解“召回率”的意思了。
当我们问检索系统某一件事的所有细节时(输入检索query),Recall就是指:检索系统能“回忆”起那些事的多少细节,通俗来讲就是“回忆的能力”。能回忆起来的细节数除以 系统知道这件事的所有细节,就是“记忆率”,也就是recall——召回率。

转自http://blog.sina.com.cn/s/blog_4a1853330100l4xw.html

以下我把百度百科的内容也放进来

F1-Measure

F-Measure又称为F-Score,是IR(信息检索)领域的常用的一个评价标准,计算公式为:
其中
是参数,P是 准确率 (Precision),R是 召回率 (Recall)[1]

F1-Measure

当参数
=1时,就是最常见的F1-Measure了:
F1 = 2P*R / (P+R)

2准确率与召回率

召回率和准确率是搜索引擎(或其它检索系统)的设计中很重要的两个概念和指标。

召回率:Recall,又称“查全率”;

准确率:Precision,又称“精度”、“正确率”。

(Recall:the ability to remember sth. that you have learned or sth. that has happened in the past.) [2]
在一个大规模数据集合中检索文档时,对每个查询(Query)我们可以统计出四个值::
  
相关
不相关 
  
1
0
合计
检索到
1
True Positive(TP)
False Positive(FP)Predicted Positive(TP+FP)
未检索到
0
False Negative(FN)
True Negative(TN)
Predicted Negative(FN+TN)
合计
 
Actual Positive(TP+FN)
Actual Negative(FP+TN)
TP+FP+FN+TN
TP:检索到的,相关的 (搜到的也想要的)
FP:检索到的,但是不相关的 (搜到的但没用的)
FN:未检索到的,但却是相关的 (没搜到,然而实际上想要的)
TN:未检索到的,也不相关的 (没搜到也没用的)
那么, P = TP/(TP+FP),R =TP/(TP+FN)
召回率:检索到的相关文档 /库中所有的相关文档
准确率:检索到的相关文档/所有被检索到的文档
通常我们希望:数据库中相关的文档,被检索到的越多越好,这是追求“查全率”越大越好。同时我们还希望:检索到的文档中,相关的越多越好,不相关的越少越好,这是追求“准确率”越大越好。
(这里可能有一个疑问,就是看上去(tp+tn)/(tp+fp+fn+tn)似乎是一个更合适的选择,它可以表示出IR系统所做出的正确判断的比例。理论上确实是这样的,但实际上,针对每个Query的相关文档数相对整个文档集来说总是很小很小一部分(比如0.1%),如果我们的系统追求(tp+tn)/(tp+fp+fn+tn)最大化,它就会倾向于不检出任何文档,这样就可以得到一个相当高的得分。比如相关文档只占0.1%,那么这个啥活都不干的系统就得到了满分的99.9%,这显然是一个很囧的结果。)

“召回率”与“准确率”的关系

“召回率”与“准确率”虽然没有必然的关系(从上面公式中可以看到),然而在大规模数据集合中,这两个指标却是相互制约的。
由于“检索策略”并不完美,希望更多相关的文档被检索到时,放宽“检索策略”时,往往也会伴随出现一些不相关的结果,从而使准确率受到影响。
而希望去除检索结果中的不相关文档时,务必要将“检索策略”定的更加严格,这样也会使有一些相关的文档不再能被检索到,从而使召回率受到影响。
凡是涉及到大规模数据集合的检索和选取,都涉及到“召回率”和“准确率”这两个指标。而由于两个指标相互制约,我们通常也会根据需要为“检索策略”选择一个合适的度,不能太严格也不能太松,寻求在召回率和准确率中间的一个平衡点。这个平衡点由具体需求决定。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值