文章目录
引言
在前面几部分我们学习了检索式对话系统的召回(recall),召回可以从海量数据中快速找到相似的Top K文本?一种是基于字符串的召回,比如:BM25+倒排索引;另一种是基于向量的召回,比如:HNSW、Annoy、SIF。对召回结果进行重新排序叫做Ranking。
一、rank 评估指标—MAP、NDCG
1.MAP
MAP(Mean Average Precision):平均准确率是相关文档检索出后的准确率的平均值。 反映系统在全部相关文档的性能单值指标,检索出来的相关文档越靠前(rank 越高),MAP就可能越高。MAP:分子是第几个文档,分母是rank数,多个相加然后求平均
例如:假设有两个主题: 主题1有4个相关网页, 主题2有5个相关网页。 某系统对于主题1检索出4个相关网页,其rank分别为1, 2, 4, 7;对于主题2检索出3个相关网页,其rank分别为1,3,5。
M A P = ( 1 1 + 2 2 + 3 4 + 4 7 ) / 4 M A P = ( 1 1 + 2 3 + 3 5 + 4 ∞ + 5 ∞ ) / 5 MAP=(\frac{1}{1}+\frac{2}{2}+\frac{3}{4}+\frac{4}{7})/4\\MAP=(\frac{1}{1}+\frac{2}{3}+\frac{3}{5}+\frac{4}{∞}+\frac{5}{∞})/5 MAP=(11+22+43+74)/4MAP=(11+32+53+∞4+∞