Learning to ranking简介

本文介绍了Learning to Rank(LTR)的基本流程,包括Pointwise、Pairwise和Listwise三种模型训练方法,以及NDCG、MAP和MRR等评价指标。在排序问题中,Pointwise方法忽视了文档之间的相对顺序,而Pairwise考虑了相对相关度但仍有不足,Listwise则直接优化整体序列。LTR广泛应用于信息检索、自然语言处理和数据挖掘中。
摘要由CSDN通过智能技术生成

Learning to ranking简介

目录

1前言... 1

2 LTR基本流程... 2

3 模型训练... 3

3.1排序类型... 3

3.1.1 Pointwise. 3

3.1.2 Pairwise. 4

3.1.3 Listwise. 5

3.2 排序算法分类... 6

4评价指标... 6

4.1 NDCG.. 7

4.2 MAP. 8

4.3 MRR. 8

5 Pointwise. 9

5.1 Pointwise学习排序... 9

5.1.1基于回归的排序学习... 9

5.1.2 基于分类的排序学习... 9

5.1.3 基于Ordinal Regressioin 的排序学习... 10

5.2 Pointwise方式的缺点... 11

References. 11

 

1前言

在传统的搜索引擎的ranking策略中,一般会包含若干子策略,子策略通过若干种方式组合成更大的策略一起发挥作用。策略的组合方式以及参数一般采取人工或者半人工的方式确定。然而随着策略的逐步细化,传统的组合方式变得越来越困难。于是Learning to Rank(LTR)就被引入了进来。LTR的核心思想是用机器学习来解决排序的问题。目前被广泛运用在信息检索(IR)、自然语言处理(NLP)和 数据挖掘(DM) 中。 LTR是监督学习,建好模型之后,需要用训练数据集的人工标注标签或其他相关性定义来训练。

2 LTR基本流程

图1 文档检索系统的基本流程

 

首先,介绍下信息检索系统(如搜索引擎)的一个基本流程。如图1 所示,对于一个查询任务q,搜索引擎要从海量的数据库中检索出,与当前查询q相关的所有文档D,并且按照相关性对这些文档进行排序。文档显示的位置对于用户的点击率是有很大影响的,文档越靠前,用户点击概率越高。所以要求搜索引擎尽可能的把最相关的文档排在前面,不相关的排在后面。

图2 学习排序基本架构

图2,是学习排序在信息检索系统中的基本架构。首先,通过人工标注或者搜索日记获取一批训练数据1。训练集D中q表示查询,x表示查询q与文档d构成的特征向量,y表示当前查询q文档d对的相关性(可以是1-5,也可以是:0-1)。然后通过选取合适的learning to ranking 算法在训练集上进行训练,得到训练好的模型 h。最后对于一个新的查询q-文档d对,输入其相应的特征向量x,模型h给出其相应的预测值h(x)。

 

其中,特征向量的元素可以分为3大类:

1、  Doc 本身的特征:pageRank, 点击次数,浏览排名,内容丰富度等等。

2、  Query-Doc的特征:文本相似性,query中的词在Doc中出现的次数等。

3、  Query的特征ÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值