论文地址:IQ-Learn: Inverse soft-Q Learning for Imitation
项目地址:IQ-Learn: Inverse soft-Q Learning for Imitation
一、相关概念:
强化学习(RL):目标是学习一个最大化指定奖励函数的策略。
模仿学习(IL):它不需要仔细手工设计奖励函数,因为它完全依赖于专家行为数据,这使得它更容易扩展到能够收集专家行为(如视频游戏或驾驶)的实际任务。
Behavioral Cloning (BC):采用监督学习的方法将环境观察映射到专家行为。
缺点:BC 无法保证模型将推广到看不见的环境观测。当智能体最终处于与任何专家轨迹不同的情况时,BC 容易出现故障。例如,在上图中,如果汽车代理偏离专家轨迹并坠毁,则不知道该怎么办。为