论文导读 | 大语言模型中应用到的强化学习算法

本文链接：https://blog.csdn.net/weixin_48167662/article/details/130562555

摘要

在最近取得广泛关注的大规模语言模型（LLM）应用强化学习（RL）进行与人类行为的对齐，进而可以充分理解和回答人的指令，这一结果展现了强化学习在大规模NLP的丰富应用前景。本文介绍了LLM中应用到的RL技术及其发展路径，希望给读者们一些将RL更好地应用于大规模通用NLP系统的提示与启发。

大规模语言模型向RL的发展

语言模型（LM）是一种编码和理解自然语言的NLP模型。早期的Word2Vec等研究工作试图进行字词编码表示语义，但这一做法讲所有字/词的语义编码固定，无法充分利用上下文信息处理一词多义等复杂语义。因此，以BERT为代表的LM通过预训练学习整句的语义表示，达到了更好的自然语言理解性能。此后，一系列研究扩大了语言模型的规模（LLM），其参数在近几年达到了千亿量级，同样取得了进一步的表现提升；为了充分利用LLM的能力，T5等工作提出了基于prompt的自然语言理解和生成范式。

LLM固然有很强的自然语言理解能力，但我们还是希望它能成为人类的好助手。从这个角度上看，让LLM的行为与人类“对齐”，使其能够理解人类指令并做出对人有帮助的回答，是一个亟待解决的问题。为此，以InstructGPT为代表的一系列工作便尝试通过强化学习让LLM与人类的行为对齐。

具体而言，这些工作通过一个反馈模型（RM）模拟一个人对LLM输出的偏好程度打分，并让LLM利用这一反馈优化其输出策略，进而得到一个能输出“令人满意”的内容的LLM。那么如何让LLM根据RM的反馈优化策略？这便是强化学习所擅长解决的问题，下文将介绍其使用的主要方法；而这一利用“人”的反馈进行强化学习的思路也被称为RLHF。

策略梯度：强化学习的基础方法

如上所述，强化学习是一种利用反馈来学习策略的范式。具体而言，如下图所示，强化学习的模型（Agent）与环境交互，对于每个给定状态st采取动作at并从环境获得奖励rt，同时进入下一状态s[t+1]，这一过程循环往复。在积累了这一系列交互经验后，模型通过调整自己的策略以让交互过程得到的奖励最大化。这样一来Agent就学习到了在给定状态下采取有益的动作的策略，实现了强化学习的目标。