一文了解【行为克隆 (Behavior Cloning)】

模仿学习 (Imitation Learning) 与强化学习一样,为了学习策略网络,从而控制智能体。但是!两者原理不同,
模仿学习向人类专家学习,目标是让策略网络做出的决策与人类专家相同
强化学习利用环境反馈的奖励改进策略,目标是让累计回报最大化

本文介绍模仿学习中最简单和基础的行为克隆(Behavior Cloning),并总结它与强化学习的区别与结合。

含义

行为克隆的目的是模仿人的动作,学出一个随机策略网络 π(a|s; θ) 或者确定策略网络 µ(s; θ)。虽然行为克隆的目的与强化学习中的策略学习类似,但是行为克隆的本质是监督学习(分类或者回归),而不是强化学习。行为克隆通过模仿人类专家的动作来学习策略,而强化学习则是从奖励中学习策略。
模仿学习需要一个事先准备好的数据集,由(状态,动作)这样的二元组构成,
在这里插入图片描述
其中sj 是一个状态,而对应的 aj 是人类专家基于状态 sj 做出的动作。可以把 sj 和 aj分别视作监督学习中的输入和标签。

 

连续控制问题

动作空间 A 是连续集合,行为克隆用回归的方法训练确定策略网络。
在这里插入图片描述
定义损失函数:
在这里插入图片描述
损失函数越小,说明策略网络的决策越接近人的动作。用梯度更新 θ:
在这里插入图片描述
在这里插入图片描述
 

离散控制问题

动作空间 A 是离散集合,行为克隆把策略网络 π(a|s; θ) 看做一个多类别分类器,用监督学习的方法训练这个分类器。

在这里插入图片描述
在这里插入图片描述

行为克隆与强化学习对比

前面反复讲过,行为克隆不是强化学习。强化学习让智能体与环境交互,用环境反馈的奖励指导策略网络的改进,目的是最大化回报的期望。行为克隆的本质是监督学习,利用事先准备好的数据集,用人类的动作指导策略网络的改进,目的是让策略网络的决策更像人类的决策。

行为克隆训练出的策略网络通常效果不佳。人类不会探索奇怪的状态和动作,因此数据集上的状态和动作缺乏多样性。在数据集上做完行为克隆之后,智能体面对真实的环境,可能会见到陌生的状态,智能体的决策可能会很糟糕。行为克隆存在“错误累加”的缺陷。假如当前智能体的决策 at 不够好。那么下一时刻的状态 st+1 可能会比较罕见,于是智能体的决策 at+1 会很差;这又导致状态 st+2 非常奇怪,使得决策 at+2 更糟糕。行为克隆训练出的策略常会进入这种恶性循环。
强化学习效果通常优于行为克隆。如果用强化学习,那么智能体探索过各种各样的状态,尝试过各种各样的动作,知道面对各种状态时应该做什么决策。智能体通过探索,各种状态都见过,比行为克隆有更多的“人生经验”,因此表现会更好。

强化学习的一个缺点在于需要与环境交互,需要探索,而且会改变环境。 而在现实探索的代价有时是很大的,比如手术机器人和无人车。
行为克隆的优势在于离线训练,可以避免与真实环境的交互,不会对环境产生影响。假如用行为克隆训练手术机器人,只需要把人类医生的观测和动作记录下来,离线训练手术机器人,而不需要真的在病人身上做实验。尽管行为克隆效果不如强化学习,但是行为克隆的成本低。可以先用行为克隆初始化策略网络,而不是随机初始化,然后再做强化学习,这样可以减小对物理世界的有害影响。

本文内容为看完王树森和张志华老师的《深度强化学习》一书的学习笔记,十分推荐大家去看原书!

  • 28
    点赞
  • 24
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
real-time voice cloning toolbox是一个可以实时克隆人声的工具箱。它可以通过录音或者实时语音输入,对输入的人声进行采样、分析、转换和合成,实现对目标人声的即时克隆。 这个工具箱的应用范围非常广泛。首先,它可以应用于语音合成领域,比如在虚拟助手、语音交互系统中,可以利用实时克隆的技术来生成更加自然、逼真的人工合成语音。其次,它也可以用于电影、电视、游戏等娱乐产业,为角色注入更加生动、个性化的语音表现。此外,它还可以在音乐制作领域发挥作用,通过实时克隆人声来创造出新的音乐声音效果。 real-time voice cloning toolbox的原理是基于深度学习和语音信号处理技术的。通过深度学习算法对大量的语音数据进行训练和学习,使得系统能够更加准确地捕捉到语音数据的特征和模式。同时,语音信号处理技术也对声音的频谱、音色、节奏等方面进行分析和处理,从而实现对语音的高度还原和克隆。 在实际应用中,real-time voice cloning toolbox还需要考虑到语音数据的隐私和安全性问题,确保在对人声进行克隆的同时,保护被克隆人的隐私和权益。另外,也需要不断完善和优化系统,提高克隆语音的质量和稳定性,以满足不同领域的需求。总的来说,real-time voice cloning toolbox是一个功能强大、前景广阔的工具,可以为语音技术的发展和应用带来更多的可能性和机遇。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

全栈O-Jay

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值