NDCG、MAP、MRR_codestorm_新浪博客

转自:http://www.cnblogs.com/eyeszjwang/articles/2368087.html

Learning to Rank for IR的评价指标—MAP,NDCG,MRR


MAP(Mean Average Precision):单个主题的平均准确率是每篇相关文档检索出后的准确率的平均值。主集合的平均准确率(MAP)是每个主题的平均准确率的平均值。MAP 是反映系统在全部相关文档上性能的单值指标。系统检索出来的相关文档越靠前(rank 越高),MAP就可能越高。如果系统没有返回相关文档,则准确率默认为0。
例如:假设有两个主题,主题1有4个相关网页,主题2有5个相关网页。某系统对于主题1检索出4个相关网页,其rank分别为1, 2, 4, 7;对于主题2检索出3个相关网页,其rank分别为1,3,5。对于主题1,平均准确率为(1/1+2/2+3/4+4/7)/4=0.83。对于主题2,平均准确率为(1/1+2/3+3/5+0+0)/5=0.45。则MAP= (0.83+0.45)/2=0.64。”

NDCG(Normalized Discounted Cumulative Gain):计算相对复杂。对于排在结位置n处的NDCG的计算公式如下图所示:

在MAP中,四个文档和query要么相关,要么不相关,也就是相关度非0即1。NDCG中改进了下,相关度分成从0到r的r+1的等级(r可设定)。当取r=5时,等级设定如下图所示:

(应该还有r=1那一级,原文档有误,不过这里不影响理解)

例如现在有一个query={abc},返回下图左列的Ranked List(URL),当假设用户的选择与排序结果无关(即每一级都等概率被选中),则生成的累计增益值如下图最右列所示:

考虑到一般情况下用户会优先点选排在前面的搜索结果,所以应该引入一个折算因子(discounting factor): log(2)/log(1+rank)。这时将获得DCG值(Discounted Cumulative Gain)如下如所示:

最后,为了使不同等级上的搜索结果的得分值容易比较,需要将DCG值归一化的到NDCG值。操作如下图所示,首先计算理想返回结果List的DCG值:

然后用DCG/MaxDCG就得到NDCG值,如下图所示:

 

MRR(Mean Reciprocal Rank):是把标准答案在被评价系统给出结果中的排序取倒数作为它的准确度,再对所有的问题取平均。相对简单,举个例子:有3个query如下图所示:

(黑体为返回结果中最匹配的一项)

可计算这个系统的MRR值为:(1/3 + 1/2 + 1)/3 = 11/18=0.61。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
由于MRRMAPNDCG都是评估指标,需要根据具体的任务和数据集进行实现。以下是一些常见任务的评估指标实现示例: 1. 信息检索任务中的MRR实现: ```python def mean_reciprocal_rank(results, relevant_docs): for i, r in enumerate(results): if r in relevant_docs: return 1.0 / (i + 1) return 0.0 # 示例 relevant_docs = [1, 3, 5] results = [3, 4, 2, 1, 5] print(mean_reciprocal_rank(results, relevant_docs)) # 输出 0.3333 ``` 2. 信息检索任务中的MAP实现: ```python def average_precision(results, relevant_docs): precision = 0.0 num_relevant = 0 for i, r in enumerate(results): if r in relevant_docs: num_relevant += 1 precision += num_relevant / (i + 1) return precision / len(relevant_docs) def mean_average_precision(results_list, relevant_docs_list): map_score = 0.0 for results, relevant_docs in zip(results_list, relevant_docs_list): map_score += average_precision(results, relevant_docs) return map_score / len(results_list) # 示例 relevant_docs_list = [[1, 3, 5], [2, 4, 6], [3, 5, 7]] results_list = [[3, 4, 2, 1, 5], [3, 2, 4, 5, 1], [7, 6, 5, 4, 3]] print(mean_average_precision(results_list, relevant_docs_list)) # 输出 0.5 ``` 3. 推荐系统任务中的NDCG实现: ```python import numpy as np def ndcg(recommended_items, relevant_items, k): dcg = 0.0 idcg = np.sum(1.0 / np.log2(np.arange(2, k + 2))) for i, r in enumerate(recommended_items[:k]): if r in relevant_items: dcg += 1.0 / np.log2(i + 2) return dcg / idcg # 示例 recommended_items = [1, 2, 3, 4, 5] relevant_items = [1, 3, 5] print(ndcg(recommended_items, relevant_items, 5)) # 输出 0.6244 ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值