Adapting Markov Decision Process for Search Result Diversification

最新推荐文章于 2024-01-16 09:00:00 发布

糖葫芦君

最新推荐文章于 2024-01-16 09:00:00 发布

阅读量375

点赞数 1

分类专栏：算法强化学习多样化排序文章标签：多样性排序 MDP

本文链接：https://blog.csdn.net/yinyu19950811/article/details/94571170

版权

算法同时被 3 个专栏收录

22 篇文章 2 订阅

订阅专栏

强化学习

6 篇文章 1 订阅

订阅专栏

多样化排序

2 篇文章 0 订阅

订阅专栏

多样化排名的MDP形式

多样化排序模型可以被看作是在每一个排序位置学习MDP模型的参数。其中MDP的states，actions，rewards，transitions和policy。
State S：
$s_t=[Z_t, X_t,h_t]$
其中 $h_t$ 是编码了用户从之前的文档 $Z_t$ 接收到的untility，还有基于q需要的信息的一个向量。
在t=0时，状态被初始化为 $s_0=[Z_0,X_0=X,h_0]$
$h_0$ 被初始化为用户需要的初始信息需求： $h_0= \sigma(V_q q)$
Actions A:
在每个时间t， $A(s_t)$ 是actions的集合，对应于当前可以选择的候选文档集合。
Transition T：
转移函数T包含三个部分：
在这里插入图片描述
其中第三项由当前最后的状态 $h_t$ 和选择的文档结合来形成一个新的状态。
其中 $V$ 和 $V_q$ 是不同的参数。

Reward R：
reward是用来评估当前选择的文档的质量的。在搜索结果多样性中，基于多样性评估度量来定义reward函数。基于 $\alpha-DCG$ ，由选择action $a_t$ 得到的 $\alpha-DCG$ 的提升可以被定义为reward function。

由于训练算法学习模型参数基于rewards的监督，根据多样性评估标准来定义rewards可以指导训练过程根据评估标准来获得一个最优的模型。

Policy：

$\pi:\ A \times S \rightarrow[0,1]$ ,给定当前的状态和候选的actions，policy $\pi$ 被定义为一个normalized softmax fucntion，其输入是utility和选择的文档的bilinear乘积：
在这里插入图片描述

多样化排序的过程：

在这里插入图片描述

给定query q，M个候选文档 $X$ 的集合，对应的真实标签J：
系统的状态初始化为：
$s_0=[Z_0,X_0=X,h_0 = \sigma(V_qq)]$
for t=0,…,M-1:
$s_t=[Z_t, X_t,h_t]$ ,选择一个action $a_t$ 从候选集合中选择一个文档 $x_{m(a_t)}$ 。状态变为 $s_{t+1}=[Z_{t+1}, X_{t+1},h_{t+1}]$ 。基于query的真实标签J，可以计算immediate reward $r_{t+1}=R([Z_t, X_t,h_t],a_t)$ ,其可以用于训练模型参数的监督信息。
这个过程重复，直到候选集合为空。

在测试或者是在线排名阶段，没有带标签的数据可以利用所以也就没有reward。所以就使用学习得到的policy来构造排序。

Learning with policy gradient

在这里插入图片描述

模型有参数: $\theta=\{V_q, U, V, W\}$ 来学习。我们根据多样性评估标准来学习参数。算法1中展示了MDP-DIV.
算法1根据Monte-Carlo随机梯度上升来更新模型参数，在每次迭代，模型参数根据的梯度来调整参数，由step size $\eta$ , discount rate $\gamma^t$ ，long -term return $G_t$ ：定义为来自位置t的reward的折扣总和：
在这里插入图片描述
如果 $\gamma=1$ $G_0$ 是在文档列表的最终排名计算得到的评估度量。（Intuitively, the setting of Gt let the parameters move most in the directions so that the favor actions can yield the highest return.）

Online ranking

在线学习阶段，排名系统接收到用户query q和相关的文档结合X，
但是没有真实标签J来计算immediate rewards，所以系统就使用学习到的policy $\pi$ 来生成多样性排序。也就是一个贪心搜索的过程，每次选择后验概率最大对应的action，返回的action更新状态用来选择下一个action。
在这里插入图片描述

Advantages

MDP-DIV不需要handcrafting 相关性和新颖性特征（构建准确的特征是很困难的）。输入到模型中的是query和文档的向量表示（例如：由doc2vec学习到的分布式表示）。
MDP-DIV利用immediate rewards和long-term returns作为监督信息。具体而言，参数在收到每个immediate rewards后更新（算法1的第5-8行）。同时，更新规则还利用long-term return Gt，其累积所有未来的rewards（重新缩放步长）（算法1的第6-7行）。
MDP-DIV使用统一标准，搜索用户可以感知的附加utility，用于在每次迭代时选择文档。相反，大多数现有方法采用的标准，例如边际相关性，由两个单独的因素组成：相关性和新颖性。在MDP框架中，文档选择标准可以被统一为“the perceived utility”

糖葫芦君

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Adapting Markov Decision Process for Search Result Diversification

多样化排名的MDP形式多样化排序模型可以被看作是在每一个排序位置学习MDP模型的参数。其中MDP的states，actions，rewards，transitions和policy。State S：st=[Zt,Xt,ht]s_t=[Z_t, X_t,h_t]st=[Zt,Xt,ht]其中hth_tht是编码了用户从之前的文档ZtZ_tZt接收到的untility，还有基于q需...
复制链接

扫一扫

专栏目录