多样化排序
文章平均质量分 89
糖葫芦君
这个作者很懒,什么都没留下…
展开
-
Top-K Off-Policy Correction for a REINFORCE Recommender System
policy-gradient应用到推荐领域:主要有3个创新点:1. 校正off-policy与on-policy之间的偏差2. top-k推荐而不是只推荐一个3. 加入探索方式原创 2022-06-07 11:23:54 · 536 阅读 · 0 评论 -
Adapting Markov Decision Process for Search Result Diversification
多样化排名的MDP形式多样化排序模型可以被看作是在每一个排序位置学习MDP模型的参数。其中MDP的states,actions,rewards,transitions和policy。State S:st=[Zt,Xt,ht]s_t=[Z_t, X_t,h_t]st=[Zt,Xt,ht]其中hth_tht是编码了用户从之前的文档ZtZ_tZt接收到的untility,还有基于q需...原创 2019-07-03 20:20:12 · 376 阅读 · 0 评论