svm中的几个简单术语的意思

最新推荐文章于 2021-05-09 16:17:20 发布

zhouzhouzf

最新推荐文章于 2021-05-09 16:17:20 发布

阅读量5.6k

点赞数

分类专栏： matlab c++ 文章标签： svm

本文链接：https://blog.csdn.net/zhouzhouzf/article/details/16826393

版权

c++ 同时被 2 个专栏收录

50 篇文章 0 订阅

订阅专栏

matlab

13 篇文章 2 订阅

订阅专栏

TP TN　FP FN

True Positive （真正, TP）被模型预测为正的正样本；可以称作判断为真的正确率

True Negative（真负 , TN）被模型预测为负的负样本；可以称作判断为假的正确率

False Positive （假正, FP）被模型预测为正的负样本；可以称作误报率

False Negative（假负 , FN）被模型预测为负的正样本；可以称作漏报率

True Positive Rate（真正率 , TPR）或灵敏度（sensitivity）
TPR = TP /（TP + FN）
正样本预测结果数 / 正样本实际数

True Negative Rate（真负率 , TNR）或特指度（specificity）
TNR = TN /（TN + FP）
负样本预测结果数 / 负样本实际数

False Positive Rate （假正率, FPR）
FPR = FP /（FP + TN）
被预测为正的负样本结果数 /负样本实际数

False Negative Rate（假负率 , FNR）
FNR = FN /（TP + FN）
被预测为负的正样本结果数 / 正样本实际数

转自http://blog.csdn.net/gnuhpc/archive/2009/07/09/4333042.aspx

经常用svm我们可以看到一些基本术语

Recall Precision F-measure

下面的这个人的博文讲的比较清楚，引用之

外行人做互联网，很多概念不懂。就拿最基础的“召回率”和“准确率”这种概念，看看网上资料知道大概，自己用的时候，脑子里绕着弯儿能想明白，可碰到别人活用的时候，脑子里还是没法一下子反应过来，还是要绕弯想一下。特地找了些资料，将这两个概念整理一下，希望能更熟练。

召回率和准确率是搜索引擎（或其它检索系统）的设计中很重要的两个概念和指标。
召回率：Recall，又称“查全率”；
准确率：Precision，又称“精度”、“正确率”。

在一个大规模数据集合中检索文档时，可把集合中的所有文档分成四类：

相关不相关

检索到 A B
未检索到 C D

A：检索到的，相关的（搜到的也想要的）
B：检索到的，但是不相关的（搜到的但没用的）
C：未检索到的，但却是相关的（没搜到，然而实际上想要的）
D：未检索到的，也不相关的（没搜到也没用的）

通常我们希望：数据库中相关的文档，被检索到的越多越好，这是追求“查全率”，即A/(A+C)，越大越好。
同时我们还希望：检索到的文档中，相关的越多越好，不相关的越少越好，这是追求“准确率”，即A/(A+B)，越大越好。

归纳如下：
召回率：检索到的相关文档比库中所有的相关文档
准确率：检索到的相关文档比所有被检索到的文档

“召回率”与“准确率”虽然没有必然的关系（从上面公式中可以看到），然而在大规模数据集合中，这两个指标却是相互制约的。
由于“检索策略”并不完美，希望更多相关的文档被检索到时，放宽“检索策略”时，往往也会伴随出现一些不相关的结果，从而使准确率受到影响。
而希望去除检索结果中的不相关文档时，务必要将“检索策略”定的更加严格，这样也会使有一些相关的文档不再能被检索到，从而使召回率受到影响。

凡是设计到大规模数据集合的检索和选取，都涉及到“召回率”和“准确率”这两个指标。而由于两个指标相互制约，我们通常也会根据需要为“检索策略”选择一个合适的度，不能太严格也不能太松，寻求在召回率和准确率中间的一个平衡点。这个平衡点由具体需求决定。

其实，准确率（precision，精度）比较好理解。往往难以迅速反应的是“召回率”。我想这与字面意思也有关系，从“召回”的字面意思不能直接看到其意义。
我觉得“召回率”这个词翻译的不够好。“召回”在中文的意思是：把xx调回来。比如sony电池有问题，厂家召回。
既然说翻译的不好，我们回头看“召回率”对应的英文“recall”，recall除了有上面说到的“order sth toreturn”的意思之外，还有“remember”的意思。

Recall：the ability to remember sth. that you have learned or sth.that has happened in the past.

这里，recall应该是这个意思，这样就更容易理解“召回率”的意思了。
当我们问检索系统某一件事的所有细节时（输入检索query），Recall就是指：检索系统能“回忆”起那些事的多少细节，通俗来讲就是“回忆的能力”。能回忆起来的细节数除以系统知道这件事的所有细节，就是“记忆率”，也就是recall——召回率。

转自http://blog.sina.com.cn/s/blog_4a1853330100l4xw.html

以下我把百度百科的内容也放进来

F1-Measure

F-Measure又称为F-Score，是IR（信息检索）领域的常用的一个评价标准，计算公式为：

其中

是参数，P是 准确率 (Precision)，R是 召回率 (Recall)。 ^[1]

F1-Measure

当参数

=1时，就是最常见的F1-Measure了：

F1 = 2P*R / (P+R)

2 准确率与召回率

召回率和准确率是搜索引擎（或其它检索系统）的设计中很重要的两个概念和指标。

召回率：Recall，又称“查全率”；

准确率：Precision，又称“精度”、“正确率”。

（Recall：the ability to remember sth. that you have learned or sth. that has happened in the past.） ^[2]

在一个大规模数据集合中检索文档时，对每个查询（Query）我们可以统计出四个值：：

		相关	不相关
		1	0	合计
检索到	1	True Positive（TP）	False Positive（FP)	Predicted Positive(TP+FP)
未检索到	0	False Negative（FN）	True Negative(TN)	Predicted Negative(FN+TN)
合计		Actual Positive(TP+FN)	Actual Negative(FP+TN)	TP+FP+FN+TN

TP：检索到的，相关的（搜到的也想要的）

FP：检索到的，但是不相关的（搜到的但没用的）

FN：未检索到的，但却是相关的（没搜到，然而实际上想要的）

TN：未检索到的，也不相关的（没搜到也没用的）

那么， P = TP/(TP+FP)，R =TP/（TP+FN）

召回率：检索到的相关文档 /库中所有的相关文档

准确率：检索到的相关文档/所有被检索到的文档

通常我们希望：数据库中相关的文档，被检索到的越多越好，这是追求“查全率”越大越好。同时我们还希望：检索到的文档中，相关的越多越好，不相关的越少越好，这是追求“准确率”越大越好。

（这里可能有一个疑问，就是看上去(tp+tn)/(tp+fp+fn+tn)似乎是一个更合适的选择，它可以表示出IR系统所做出的正确判断的比例。理论上确实是这样的，但实际上，针对每个Query的相关文档数相对整个文档集来说总是很小很小一部分（比如0.1%），如果我们的系统追求(tp+tn)/(tp+fp+fn+tn)最大化，它就会倾向于不检出任何文档，这样就可以得到一个相当高的得分。比如相关文档只占0.1%，那么这个啥活都不干的系统就得到了满分的99.9%，这显然是一个很囧的结果。）