一文了解【行为克隆 (Behavior Cloning)】

全栈O-Jay

已于 2024-06-03 14:55:23 修改

阅读量3.3k

点赞数 35

分类专栏：人工智能文章标签：深度学习机器学习神经网络强化学习行为克隆模仿学习

于 2024-01-18 11:27:34 首次发布

本文链接：https://blog.csdn.net/weixin_45116099/article/details/135663133

版权

人工智能专栏收录该内容

56 篇文章

订阅专栏

本文介绍了行为克隆，一种模仿学习方法，通过监督学习方式学习人类专家的动作策略。与强化学习相比，行为克隆在连续和离散控制问题中的应用，以及其在数据集依赖和与环境交互方面的优缺点。强化学习通常效果更好，但行为克隆因其离线训练成本低，可用于低成本场景的初始策略设定。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

模仿学习 (Imitation Learning) 与强化学习一样，为了学习策略网络，从而控制智能体。但是！两者原理不同，
模仿学习向人类专家学习，目标是让策略网络做出的决策与人类专家相同。
强化学习利用环境反馈的奖励改进策略，目标是让累计回报最大化。

本文介绍模仿学习中最简单和基础的行为克隆(Behavior Cloning)，并总结它与强化学习的区别与结合。

含义

行为克隆的目的是模仿人的动作，学出一个随机策略网络 π(a|s; θ) 或者确定策略网络 µ(s; θ)。虽然行为克隆的目的与强化学习中的策略学习类似，但是行为克隆的本质是监督学习（分类或者回归），而不是强化学习。行为克隆通过模仿人类专家的动作来学习策略，而强化学习则是从奖励中学习策略。
模仿学习需要一个事先准备好的数据集，由（状态，动作）这样的二元组构成，
在这里插入图片描述
其中sj 是一个状态，而对应的 aj 是人类专家基于状态 sj 做出的动作。可以把 sj 和 aj分别视作监督学习中的输入和标签。

连续控制问题

动作空间 A 是连续集合，行为克隆用回归的方法训练确定策略网络。
在这里插入图片描述
定义损失函数：

损失函数越小，说明策略网络的决策越接近人的动作。用梯度更新 θ：

离散控制问题

动作空间 A 是离散集合，行为克隆把策略网络 π(a|s; θ) 看做一个多类别分类器，用监督学习的方法训练这个分类器。

在这里插入图片描述

行为克隆与强化学习对比

前面反复讲过，行为克隆不是强化学习。强化学习让智能体与环境交互，用环境反馈的奖励指导策略网络的改进，目的是最大化回报的期望。行为克隆的本质是监督学习，利用事先准备好的数据集，用人类的动作指导策略网络的改进，目的是让策略网络的决策更像人类的决策。

行为克隆训练出的策略网络通常效果不佳。人类不会探索奇怪的状态和动作，因此数据集上的状态和动作缺乏多样性。在数据集上做完行为克隆之后，智能体面对真实的环境，可能会见到陌生的状态，智能体的决策可能会很糟糕。行为克隆存在“错误累加”的缺陷。假如当前智能体的决策 at 不够好。那么下一时刻的状态 st+1 可能会比较罕见，于是智能体的决策 at+1 会很差；这又导致状态 st+2 非常奇怪，使得决策 at+2 更糟糕。行为克隆训练出的策略常会进入这种恶性循环。
强化学习效果通常优于行为克隆。如果用强化学习，那么智能体探索过各种各样的状态，尝试过各种各样的动作，知道面对各种状态时应该做什么决策。智能体通过探索，各种状态都见过，比行为克隆有更多的“人生经验”，因此表现会更好。

强化学习的一个缺点在于需要与环境交互，需要探索，而且会改变环境。 而在现实探索的代价有时是很大的，比如手术机器人和无人车。
行为克隆的优势在于离线训练，可以避免与真实环境的交互，不会对环境产生影响。假如用行为克隆训练手术机器人，只需要把人类医生的观测和动作记录下来，离线训练手术机器人，而不需要真的在病人身上做实验。尽管行为克隆效果不如强化学习，但是行为克隆的成本低。可以先用行为克隆初始化策略网络，而不是随机初始化，然后再做强化学习，这样可以减小对物理世界的有害影响。

本文内容为看完王树森和张志华老师的《深度强化学习》一书的学习笔记，十分推荐大家去看原书！