一般的表述方式
FROM: <<现代信息检索>> 第二版, 第4章-检索评价
R为相关文档集, A为查询 在文档集 上查询返回的文档集, .那么, 精度(正确率) p ( Precision), 召回率 r (Recall)的定义如下
其他表述方式
FROM<<信息检索导论中文版>>
相关(relevant) | 不相关(nonrelevant) | |
返回(retrieved) | 真正例(true positives, tp) | 伪正例(false positives, fp) |
未返回(not retrieved) | 伪反例(false negatives, fn) | 真反例(true negatives, tn) |
还有一个概念, 精确率(accuracy). 精确率指标在很多机器学习问题中的使用非常普遍,是一个非常适合这类问题的效果
度量指标。计算方式:
然而,精确率对于信息检索来说并不是一个很好的度量指标。这一点也很容易解释:绝大多数情况下,信息检索中的数据存在着极度的不均衡性,比如通常情况下,超过99.9% 的文档都是不相关文档。