Adapting Markov Decision Process for Search Result Diversification

多样化排名的MDP形式

多样化排序模型可以被看作是在每一个排序位置学习MDP模型的参数。其中MDP的states,actions,rewards,transitions和policy。
State S:
s t = [ Z t , X t , h t ] s_t=[Z_t, X_t,h_t] st=[Zt,Xt,ht]
其中 h t h_t ht是编码了用户从之前的文档 Z t Z_t Zt接收到的untility,还有基于q需要的信息的一个向量。
在t=0时,状态被初始化为 s 0 = [ Z 0 , X 0 = X , h 0 ] s_0=[Z_0,X_0=X,h_0] s0=[Z0,X0=X,h0]
h 0 h_0 h0被初始化为用户需要的初始信息需求: h 0 = σ ( V q q ) h_0= \sigma(V_q q) h0=σ(Vqq)
Actions A:
在每个时间t, A ( s t ) A(s_t) A(st)是actions的集合,对应于当前可以选择的候选文档集合。
Transition T:
转移函数T包含三个部分:
在这里插入图片描述
其中第三项由当前最后的状态 h t h_t ht和选择的文档结合来形成一个新的状态。
其中 V V V V q V_q Vq是不同的参数。

Reward R:
reward是用来评估当前选择的文档的质量的。在搜索结果多样性中,基于多样性评估度量来定义reward函数。基于 α − D C G \alpha-DCG αDCG,由选择action a t a_t at得到的 α − D C G \alpha-DCG αDCG的提升可以被定义为reward function。

由于训练算法学习模型参数基于rewards的监督,根据多样性评估标准来定义rewards可以指导训练过程根据评估标准来获得一个最优的模型。

Policy:

π :   A × S → [ 0 , 1 ] \pi:\ A \times S \rightarrow[0,1] π: A×S[0,1],给定当前的状态和候选的actions,policy π \pi π被定义为一个normalized softmax fucntion,其输入是utility和选择的文档的bilinear乘积:
在这里插入图片描述

多样化排序的过程:

在这里插入图片描述
在这里插入图片描述
给定query q,M个候选文档 X X X的集合,对应的真实标签J:
系统的状态初始化为:
s 0 = [ Z 0 , X 0 = X , h 0 = σ ( V q q ) ] s_0=[Z_0,X_0=X,h_0 = \sigma(V_qq)] s0=[Z0,X0=X,h0=σ(Vqq)]
for t=0,…,M-1:
s t = [ Z t , X t , h t ] s_t=[Z_t, X_t,h_t] st=[Zt,Xt,ht],选择一个action a t a_t at从候选集合中选择一个文档 x m ( a t ) x_{m(a_t)} xm(at)。状态变为 s t + 1 = [ Z t + 1 , X t + 1 , h t + 1 ] s_{t+1}=[Z_{t+1}, X_{t+1},h_{t+1}] st+1=[Zt+1,Xt+1,ht+1]。基于query的真实标签J,可以计算immediate reward r t + 1 = R ( [ Z t , X t , h t ] , a t ) r_{t+1}=R([Z_t, X_t,h_t],a_t) rt+1=R([Zt,Xt,ht],at),其可以用于训练模型参数的监督信息。
这个过程重复,直到候选集合为空。

在测试或者是在线排名阶段,没有带标签的数据可以利用所以也就没有reward。所以就使用学习得到的policy来构造排序。

Learning with policy gradient

在这里插入图片描述
在这里插入图片描述
模型有参数: θ = { V q , U , V , W } \theta=\{V_q, U, V, W\} θ={Vq,U,V,W}来学习。我们根据多样性评估标准来学习参数。算法1中展示了MDP-DIV.
算法1根据Monte-Carlo随机梯度上升来更新模型参数,在每次迭代,模型参数根据在这里插入图片描述的梯度来调整参数,由step size η \eta η, discount rate γ t \gamma^t γt,long -term return G t G_t Gt:定义为来自位置t的reward的折扣总和:
在这里插入图片描述
如果 γ = 1 \gamma=1 γ=1 , G 0 ,G_0 ,G0是在文档列表的最终排名计算得到的评估度量。(Intuitively, the setting of Gt let the parameters move most in the directions so that the favor actions can yield the highest return.)

Online ranking

在线学习阶段,排名系统接收到用户query q和相关的文档结合X,
但是没有真实标签J来计算immediate rewards,所以系统就使用学习到的policy π \pi π来生成多样性排序。也就是一个贪心搜索的过程,每次选择后验概率最大对应的action,返回的action更新状态用来选择下一个action。
在这里插入图片描述

Advantages

  • MDP-DIV不需要handcrafting 相关性和新颖性特征(构建准确的特征是很困难的)。输入到模型中的是query和文档的向量表示(例如:由doc2vec学习到的分布式表示)。
  • MDP-DIV利用immediate rewards和long-term returns作为监督信息。具体而言,参数在收到每个immediate rewards后更新(算法1的第5-8行)。 同时,更新规则还利用long-term return Gt,其累积所有未来的rewards(重新缩放步长)(算法1的第6-7行)。
  • MDP-DIV使用统一标准,搜索用户可以感知的附加utility,用于在每次迭代时选择文档。 相反,大多数现有方法采用的标准,例如边际相关性,由两个单独的因素组成:相关性和新颖性。在MDP框架中,文档选择标准可以被统一为“the perceived utility”
  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值