在人机交互场景中,强化学习能够训练智能体按照人类语言指令完成任务。
以往的算法通常直接将人类语言提供给智能体,然后使用强化学习优化方法来提升智能体的策略,以完成人类指定的任务。然而,人类语言的学习难度高,与解决具体决策任务的复杂度不相匹配。为此,南栖仙策和南京大学团队提出了一种新方法TALAR,让智能体自己发明与任务相关的“任务语言”,这样的语言更容易与任务关联,而人类的语言则作为“外语”,智能体另外学习如何将人类语言翻译为任务语言。
效果展示
仅用不到一百万帧训练样本,智能体(白色小球)就能够快速学习到理解人类的语言指令,并根据指令,将大球们推动到正确的位置上,完成任务。
快速学习如何完成由人类语言指定的任务
此外,智能体还能够充分适应各种不同风格的人类语言表达,使人机交互的效率大大提高