NDCG、MAP、MRR_codestorm_新浪博客

最新推荐文章于 2024-01-18 15:21:46 发布

codestorm04

最新推荐文章于 2024-01-18 15:21:46 发布

阅读量132

点赞数

分类专栏： NLP 文章标签： python java 深度学习大数据 elasticsearch

NLP 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

转自：http://www.cnblogs.com/eyeszjwang/articles/2368087.html

Learning to Rank for IR的评价指标—MAP,NDCG,MRR

MAP(Mean Average Precision)：单个主题的平均准确率是每篇相关文档检索出后的准确率的平均值。主集合的平均准确率(MAP)是每个主题的平均准确率的平均值。MAP 是反映系统在全部相关文档上性能的单值指标。系统检索出来的相关文档越靠前(rank 越高)，MAP就可能越高。如果系统没有返回相关文档，则准确率默认为0。
例如：假设有两个主题，主题1有4个相关网页，主题2有5个相关网页。某系统对于主题1检索出4个相关网页，其rank分别为1, 2, 4, 7；对于主题2检索出3个相关网页，其rank分别为1,3,5。对于主题1，平均准确率为(1/1+2/2+3/4+4/7)/4=0.83。对于主题2，平均准确率为(1/1+2/3+3/5+0+0)/5=0.45。则MAP= (0.83+0.45)/2=0.64。”

NDCG(Normalized Discounted Cumulative Gain)：计算相对复杂。对于排在结位置n处的NDCG的计算公式如下图所示：

在MAP中，四个文档和query要么相关，要么不相关，也就是相关度非0即1。NDCG中改进了下，相关度分成从0到r的r+1的等级(r可设定)。当取r=5时，等级设定如下图所示：

(应该还有r=1那一级，原文档有误，不过这里不影响理解)

例如现在有一个query={abc}，返回下图左列的Ranked List(URL)，当假设用户的选择与排序结果无关(即每一级都等概率被选中)，则生成的累计增益值如下图最右列所示：

考虑到一般情况下用户会优先点选排在前面的搜索结果，所以应该引入一个折算因子(discounting factor): log(2)/log(1+rank)。这时将获得DCG值(Discounted Cumulative Gain)如下如所示：

最后，为了使不同等级上的搜索结果的得分值容易比较，需要将DCG值归一化的到NDCG值。操作如下图所示，首先计算理想返回结果List的DCG值：

然后用DCG/MaxDCG就得到NDCG值，如下图所示：

MRR(Mean Reciprocal Rank)：是把标准答案在被评价系统给出结果中的排序取倒数作为它的准确度，再对所有的问题取平均。相对简单，举个例子：有3个query如下图所示：

(黑体为返回结果中最匹配的一项)

可计算这个系统的MRR值为：(1/3 + 1/2 + 1)/3 = 11/18=0.61。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
NDCG、MAP、MRR_codestorm_新浪博客

转自：http://www.cnblogs.com/eyeszjwang/articles/2368087.htmlLearning to Rank for IR的评价指标—MAP,NDCG,MRRMAP(Mean Average Precision)：单个主题的平均准确率是每篇相关文档检索出后的准确率的平均值。主集合的平均准确率(MAP)是每个主题的平均准确率的平均值。MAP 是反...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。