深度强化学习+大模型综述Survey on Large Language Model-Enhanced Reinforcement Learning

梦里梦。。。

已于 2024-06-03 17:50:44 修改

阅读量3.7k

点赞数 28

分类专栏： DRL 文章标签：语言模型人工智能自然语言处理

于 2024-06-03 17:43:28 首次发布

本文链接：https://blog.csdn.net/xcs166357/article/details/139413389

版权

论文地址：[2404.00282] Survey on Large Language Model-Enhanced Reinforcement Learning: Concept, Taxonomy, and Methods (arxiv.org)

摘要

对 LLM 增强 RL 中现有文献进行了全面的回顾，并总结了其与传统 RL 方法相比的特征，旨在阐明未来研究的研究范围和方向。利用经典的代理-环境交互范式，我们提出了一种结构化分类法来系统地对RL中llm的功能进行分类，包括四个角色:信息处理器、奖励设计者、决策者和生成器。

INTRODUCTION

概念

强化学习 (RL) 是一种强大的学习范式，专注于控制和决策，其中代理通过与环境的试错交互来学习优化指定的目标。但是当应用于涉及语言和视觉信息的实际应用中时，深度 RL 算法面临着重大挑战，因为代理必须联合学习特征和控制策略。

目前深度强化学习存在的一些挑战

1、采样效率低下

样本效率低下：深度 RL 代理需要与环境的广泛交互来学习有效的策略，但是对于昂贵或有风险的数据收集场景是不切实际的，实际机器人或无人驾驶收集一些特殊的数据需要付出一定代价（如碰撞的数据等），所以深度强化学习训练机器人一般都是sim2real，而且需要大量的时间来收集熟悉，还需要克服虚拟场景到实际场景的迁移差别性；

2、奖励函数设计

奖励函数设计: 策略学习的性能在很大程度上取决于奖励函数的设计（为什么这样说呢，DRL的本质是将环境状态映射为动作决策量，并使得累积回报值最大化，而累积汇报和每一次的状态-动作对都是相关的，即预先定义的奖励模型，智能体执行一次动作转移到下一个状态，并得到一个奖励值，通过回溯一个eposide的过程得到每一步的回报值）。