探寻智能体自己的语言——迈向人机交互强化学习

在人机交互场景中,强化学习能够训练智能体按照人类语言指令完成任务。
以往的算法通常直接将人类语言提供给智能体,然后使用强化学习优化方法来提升智能体的策略,以完成人类指定的任务。然而,人类语言的学习难度高,与解决具体决策任务的复杂度不相匹配。为此,南栖仙策和南京大学团队提出了一种新方法TALAR,让智能体自己发明与任务相关的“任务语言”,这样的语言更容易与任务关联,而人类的语言则作为“外语”,智能体另外学习如何将人类语言翻译为任务语言。

效果展示

仅用不到一百万帧训练样本,智能体(白色小球)就能够快速学习到理解人类的语言指令,并根据指令,将大球们推动到正确的位置上,完成任务。

            快速学习如何完成由人类语言指定的任务

此外,智能体还能够充分适应各种不同风格的人类语言表达,使人机交互的效率大大提高

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值