Learning to ranking简介

最新推荐文章于 2021-05-18 15:23:51 发布

zhouge466152112

最新推荐文章于 2021-05-18 15:23:51 发布

阅读量2k

点赞数

分类专栏： LTR 文章标签：机器学习 svm algorithm 排序算法 LTR

本文链接：https://blog.csdn.net/zhouge466152112/article/details/41791079

版权

本文介绍了Learning to Rank（LTR）的基本流程，包括Pointwise、Pairwise和Listwise三种模型训练方法，以及NDCG、MAP和MRR等评价指标。在排序问题中，Pointwise方法忽视了文档之间的相对顺序，而Pairwise考虑了相对相关度但仍有不足，Listwise则直接优化整体序列。LTR广泛应用于信息检索、自然语言处理和数据挖掘中。

摘要由CSDN通过智能技术生成

Learning to ranking简介

5.1 Pointwise学习排序... 9

5.1.1基于回归的排序学习... 9

5.1.2 基于分类的排序学习... 9

5.1.3 基于Ordinal Regressioin 的排序学习... 10

5.2 Pointwise方式的缺点... 11

References. 11

1前言

在传统的搜索引擎的ranking策略中，一般会包含若干子策略，子策略通过若干种方式组合成更大的策略一起发挥作用。策略的组合方式以及参数一般采取人工或者半人工的方式确定。然而随着策略的逐步细化，传统的组合方式变得越来越困难。于是Learning to Rank（LTR）就被引入了进来。LTR的核心思想是用机器学习来解决排序的问题。目前被广泛运用在信息检索（IR）、自然语言处理（NLP）和数据挖掘（DM）中。 LTR是监督学习，建好模型之后，需要用训练数据集的人工标注标签或其他相关性定义来训练。

2 LTR基本流程

图1 文档检索系统的基本流程

首先，介绍下信息检索系统（如搜索引擎）的一个基本流程。如图1 所示，对于一个查询任务q，搜索引擎要从海量的数据库中检索出，与当前查询q相关的所有文档D，并且按照相关性对这些文档进行排序。文档显示的位置对于用户的点击率是有很大影响的，文档越靠前，用户点击概率越高。所以要求搜索引擎尽可能的把最相关的文档排在前面，不相关的排在后面。

图2 学习排序基本架构

图2，是学习排序在信息检索系统中的基本架构。首先，通过人工标注或者搜索日记获取一批训练数据¹。训练集D中q表示查询，x表示查询q与文档d构成的特征向量，y表示当前查询q文档d对的相关性（可以是1-5，也可以是：0-1）。然后通过选取合适的learning to ranking 算法在训练集上进行训练，得到训练好的模型 h。最后对于一个新的查询q-文档d对，输入其相应的特征向量x，模型h给出其相应的预测值h(x)。

其中，特征向量的元素可以分为3大类：

1、 Doc 本身的特征：pageRank, 点击次数，浏览排名，内容丰富度等等。

2、 Query-Doc的特征：文本相似性，query中的词在Doc中出现的次数等。

3、 Query的特征ÿ