CIKM 2024 | 京东电商搜索:深度强化学习的探索与落地



CIKM 2024: MODRL-TA:A Multi-Objective Deep Reinforcement Learning Framework for Traffic Allocation in E-Commerce Search

链接: https://dl.acm.org/doi/10.1145/3627673.3679964

摘要:流量调控是通过调整商品在搜索后阶段的位置来重新分配自然流量的过程,旨在有效促进商家增长、精确满足客户需求,并确保电商平台上各方利益的最大化。现有的排序学习方法忽视了流量分配的长期价值,而强化学习方法则难以在真实数据环境中平衡多个目标和解决冷启动问题。为了解决这些问题,本文提出了一种多目标深度强化学习框架,包括多目标Q学习(MOQ)、基于交叉熵方法的决策融合算法(DFM)以及渐进数据增强系统(PDA)。具体来说,MOQ构建了多个强化学习模型,每个模型专注于一个目标,如点击率、转化率等。这些模型分别决定商品的位置,旨在从个体角度估计多个目标的长期价值。然后,我们使用DFM动态调整各目标之间的权重,以最大化长期价值,解决电商场景中目标偏好的时间动态变化。最初,PDA使用离线日志中的模拟数据训练MOQ。随着实验的进行,它策略性地整合了真实用户交互数据,最终替换模拟数据集,以缓解分布变化和冷启动问题。在京东主搜上的实验结果显示,MODRL-TA显著提升了性能,并已成功部署。

1、背景/现状介绍

在现代电商平台中,流量调控系统是一个至关重要的组成部分。流量调控是搜索排序后链路中的关键环节,通过调整商品在搜索结果中的展示位置,将自然流量重新分配给各个商品。其目的是有效促进商家增长,精准满足客户需求,并确保平台上各方利益的最大化。在京东零售这样的电商平台上,搜索领域是最大的流量场域,承担着提升自然流量可运营能力的重要任务。如何通过有效的流量调控系统来增强商家对自然流量的运营能力,成为平台和商家共同关注的焦点。







2、挑战与困难

现有的启发式方法可以用于实现流量分配。然而,这些启发式方法仅关注单个商品的收益,忽视了一个商品的分配策略变化可能会影响其他商品的最优策略这一现实。因此,许多研究致力于开发基于强化学习的技术,这些技术可以在与消费者的互动中不断更新其广告策略,并通过最大化预期的长期累积收益来制定最优策略。

然而,大多数现有研究专注于最大化单一商品的效用,而忽略了商品和商家的多重效用,如转化率、点击率或加购率。多目标强化学习方法可以通过多重奖励塑造或集成学习在多个目标之间取得平衡,但它们的最优策略相对静态。具体来说,商家的业务目标会随着时间动态变化。例如,对于新加入平台的商家,用户点击实际上比订单更重要(以培养吸引用户浏览的思维ÿ

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值