具身智能主流方法:模仿学习,和强化学习

本文讨论了模仿学习与强化学习的区别,模仿学习侧重于快速学习已有的技能,但能力受限;强化学习则强调在互动中自我提升。两者结合能加速智能体学习,尤其在预训练阶段,显著减少强化学习的训练时间,达到超越人类的性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1.区别

模仿学习:倾向于从优秀的个体展现出来的技能中快速学习,并获得泛化能力,但模仿学习目前学到的仅是相同技能的不用应用,比方说,“放苹果”泛化到“放梨”,“放牛奶”,都是“放”这个技能的不同应用,但模仿学习不能从技能“放”泛化到技能“拿”。

强化学习:强调在与现实世界交互过程中持续学习,这让强化学习具有不断重新学习新的技能的可能。

模仿学习:需要人为构造复杂数据集,数据利用率高,但数据难

强化学习:需要搭建高仿真环境,或者学习环境的模型,再用这个模型生成数据,数据利用率低,但数据相对易。

总结:类比于人,强化学习适合开疆拓土,不断在新的环境中学习新的技能,并不断学习,把这项技能学到最优,而模仿学习,适合复制强化学习最优的个体,以便大规模应用,或者说,强化学习是个将军,模仿学习是教官和士兵。

2.结合

        在实际应用中,我们希望智能体不是从零开始学,所以先用模仿学习,学习基本技能,加快基础学习速度(类似于预训练模型),但模仿学习学到的技能,从能力上难以超过学习的本体,所以要进行强化学习不断提升自己。在实际操作中,这样能大大减少强化学习的训练时间。因此,模仿学习和强化学习往往是一起使用的。好处是既能大大加快训练速度,又能得到超越人类的超高水准。


参考文献

1.模仿学习与强化学习的结合(原理讲解与ML-Agents实现)_ma-poca-CSDN博客

2.【强化学习】模仿学习:生成式对抗模仿学习_生成对抗模仿学习-CSDN博客 

3.强化学习和模仿学习的联系与区别&模仿学习和监督学习的区别?_模仿学习和强化学习的区别-CSDN博客 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值