一文看懂什么是强化学习?(基本概念+应用场景+主流算法+案例)

转自DataFunSummit

分享嘉宾|蔡庆芃博士 快手高级算法专家

黄世宇博士 前第四范式强化学习科学家

编辑整理|王振甲

内容校对|李瑶

出品社区|DataFun

01

2. 基础数学模型:马尔可夫决策过程(MDP)

从数学角度看,强化学习被建模为一个马尔可夫决策过程。在这个过程中,智能体(agent)与环境在每个步骤(step)进行交互。智能体执行一个动作(action),环境则返回当前的立即奖励(reward)和下一个状态(state)。这个过程持续进行,形成一个状态-动作-奖励的序列。

在强化学习中,状态是状态集合中的一个元素,动作是动作集合中的一个元素。状态转移假设符合马尔可夫性,即下一个状态的概率仅依赖于当前状态和当前动作。奖励则由当前状态、当前动作以及下一个状态联合决定。

此外,还有一个重要的概念是 γ 值,它用于平衡即时奖励与未来潜在奖励的重要性。通过调整 γ 值,可以控制智能体在决策时是更侧重于即时奖励还是未来的长期奖励。

这种建模方式使得强化学习能够在不确定环境中通过试错学习最优策略,逐步提升性能并逼近最优解。

强化学习作为机器学习的一个子类,与监督学习和无监督学习并列。监督学习侧重于分类或拟合回归,而无监督学习则处理无标签的样本。强化学习独具特色,既包含有监督的部分,又着重于优化长期价值。其数据样本的获取遵循在线学习的范式,从而呈现出与众不同的特点。强化学习领域与经济学、心理学、神经科学等多个领域紧密相连,甚至在哲学层面上存在一定的交叉。此外,强化学习与控制论、奖励系统以及运筹学等领域也存在一定的重叠。

强化算法的优化目标可以聚焦于长期奖励或当前步骤的奖励,这涉及到马尔可夫决策过程和多智能体问题。在处理赌博机问题时,可以采用动作-价值方法或基于梯度的赌博机方法。

马尔可夫决策过程可以根据是否使用环境模型分为基于模型和无模型两类。基于模型的算法可以通过学习环境的认知建模,利用状态转移函数和奖励函数来做出最优决策,如使用 MuZero 和蒙特卡洛搜索等算法。无模型算法可以分为基于价值和基于策略两类强化学习算法。基于价值的强化学习算法仅学习一个价值函数,即估计当前状态下采取动作后的 Q 值,代表性的算法有 DQN。DQN 进一步演化出了 C51 等算法,适用于离散空间,并扩展到连续空间的 DDPG 算法。DDPG 算法采用近似最大化,并衍生出了解决连续空间决策问题的 TD3、SAC 等算法。

在基于策略的强化学习算法中,可以分为无梯度和有梯度两类。无梯度算法采用进化策略等演化计算类似的算法。有梯度算法则包括 TRPO 算法、PPO 算法等,其中PPO 算法在 MOBA 游戏 AI 和大语言模型的 RLHF 训练中得到了广泛应用。

3. 强化学习的应用

强化学习的线上应用涵盖了多个领域。在游戏 AI 方面,强化学习被广泛应用于围棋和星际争霸等游戏中。此外,在工艺控制、金融量化、机器人控制、运筹优化和交通灯调度等方面,强化学习也发挥着重要作用。同时,强化学习还在大模型对齐等任务中展现出其独特的价值。这些应用展示了强化学习在解决实际问题中的广泛适用性和重要性。

强化学习经典算法—DQN 算法

在强化学习领域,DQN 算法是一种广受欢迎的经典方法,它基于价值函数进行学习。

与 Q-learning 类似,DQN 致力于估计在给定状态下执行某个动作的长期回报。为实现这一目标,DQN 利用贝尔曼方程来构建一个目标值,该目标值由当前状态的即时奖励和从下一个状态到序列结束的最大可能价值组成。在此过程中,DQN 采用 max 算子来选择下一个状态中具有最大 Q 值的动作。一旦确定了目标值,DQN 会采用软更新的方式来逐步调整其 Q 值估计。其中,学习率 α 扮演着至关重要的角色,它控制着更新的步长。值得一提的是,DQN 算法在理论上具有一定的收敛性保证。具体来说,当所有的状态-动作对都被无限次地访问,并且学习率满足一定条件时,DQN 可以逐渐收敛到最优的价值函数。

为了将评估方法扩展到连续的状态空间,需要结合深度神经网络来实现。具体而言,首先通过卷积神经网络对状态进行表征,随后利用全连接层输出每个动作的信用值。最终,我们选择具有最高置信度的动作进行执行。这种方法使我们能够在连续状态空间中有效地进行决策和评估。

尽管神经网络在函数近似方面表现出色,但其应用仍存在一些问题。特别是,当使用神经网络来表征动作价值时,随着价值网络参数的变化,模型预估的目标值也会动态地变化。这种现象构成了一个“moving target”问题,增加了算法的复杂性。为了缓解这个问题,可以引入一个 target network,这是一个独立的、学习速度较慢的网络。作为原始神经网络的慢拷贝,target network 的学习速度更慢,从而防止目标变更过快。这种方法可以一定程度上提高算法的稳定性。

强化学习推荐算法提升短视频留存

1. 短视频推荐中的用户留存

传统的推荐算法在处理这种延迟反馈时面临挑战,因为它们难以直接优化长期反馈。相比之下,强化学习作为一种能够直接最大化长期奖励的方法,非常适合解决这类问题。在此场景下,我们将问题建模为一个无穷序列的马尔可夫决策过程,其中每次用户打开 APP 都被视为一个新的开始。推荐系统在每个步骤中返回六个视频作为动作,用户则给出即时反馈。经过多次交互后,用户可能离开 APP 并在下一个会话中重新打开,这构成了会话之间的回访时间间隔。

强化学习的目标在于最小化多个会话间的累计回访时间间隔,这在统计上等同于提高用户对平台的访问量。值得注意的是,与之前强化学习在推荐系统中的应用不同,此次方法首次针对回访时间间隔进行优化,构成了一个创新点。这种方法不仅有助于提升用户满意度和留存率,还为强化学习在推荐系统中的应用开辟了新的思路。

2. 基于无限域请求的马尔可夫决策过程

为了更细致地解决这一问题,我们对模型进行了更深入地构建。在我们的模型中,状态涵盖了用户的属性、历史记录以及候选视频的特征。而动作则指的是融合多个即时排序函数的过程,即生成一个排序打分的向量。值得注意的是,我们所处理的实际空间是一个连续空间,最终目标是最小化多个会话之间的回访时间间隔。通过这样的建模和优化,我们能够更精确地理解用户行为,并提供更符合其偏好的视频推荐,从而提升用户体验和满意度。

3. 用户留存算法的强化学习

接下来将深入探讨这一方法的训练过程。我们所采用的是一个 active critic 学习框架,其核心在于优化回访时间目标及其与即时信号 critic 值之和。在 critic 的学习过程中,例如对于留存率(retention)这一信号,我们采用了一种基于 TD-learning 的方法,其机制类似于 TD3 方法。

然而,当涉及到即时响应时,情况变得更为复杂。为了超越仅仅学习立即互动、转发时长等信号,我们引入了一个 RND 网络。这一网络源自强化学习中的探索方法,用于计算每个样本的探索价值,并将其作为内在奖励来增强样本。

在实际应用中,行动者(actor)会根据每个请求的输入状态输出一个 K 维的动作向量。这一向量与监督学习模型的打分进行内积运算,最终得到一个排名分数(ranking score)。基于这一排名分数,我们会选出前 6 名的视频呈现给用户。

通过这一综合方法,能够更精准地满足用户需求,提升用户体验,并在推荐系统中实现更高效和个性化的内容推荐。

4. 离线和在线实验

我们对所提出的方法进行了离线和在线的验证。在离线验证中,基于著名的短视频推荐平台快手的数据,我们构建了一个公开数据集和模拟器。通过对比黑盒优化的CEM 方法和 TD3 方法,我们发现提出的 RLUR 方法在返回时间和用户留存率上均表现出显著的提升。此外,我们还进行了在线验证,结果表明,相较于基线 CEM 方法,RLUR 方法显著提高了 APP 的打卡频次和用户留存率,验证了其在实际推荐系统中的有效性。这些实验结果充分证明了 RLUR 方法在实际应用中的潜力和价值。

强化学习未来挑战

在探讨强化学习方法的未来挑战时,我们需关注几个核心问题。首先是样本效率问题,强化学习模型相较于监督学习模型,通常需要更大的样本量和更长的训练时间。为解决这一问题,可能需要研究并应用更为高效的样本利用算法。其次,面对稀疏奖励的问题,需要探索更为智能的探索策略来应对。

此外,强化学习模型的泛化性能也是一个重要议题。可以借鉴多任务学习和终身学习的算法,尝试提升模型在不同环境和任务间的适应能力。同时,多智能体环境下的合作问题以及非完全信息博弈中的多智能强化学习问题,也是未来研究的重要方向。

最后,我们还需要关注强化学习在实际应用中的创新点,以及在大模型中的高效实现。这些方向的研究将有助于推动强化学习在实际问题中的广泛应用和性能提升。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值