人工智能相扑选手令未来的机器人更加聪明敏捷

欢迎关注我们微信公众号,可以加入我们QQ人工智能行业交流群626784247.




01



在RoboSumo虚拟世界中战斗的机器人由机器学习软件控制,而非人类操控。与典型电子游戏中的电脑角色不同,他们并没有被预先编程去进行摔跤搏斗;相反,他们必须在反复摸索中“学习”这项运动,使机器人借助AI系统变得聪明敏捷。

图片来自“123rf.com.cn”

图形并不令人眼花缭乱,但相扑电子游戏可能有助于让人工智能软件更加智能化。

在RoboSumo虚拟世界中战斗的机器人由机器学习软件控制,而非人类操控。与典型电子游戏中的电脑角色不同,他们并没有被预先编程去进行摔跤搏斗;相反,他们必须在反复摸索中“学习”这项运动。该游戏由Elon Musk共同发起的非营利研究实验室OpenAI开发,希望借助人工智能系统让机器人变得更加智能聪明。

OpenAI的研究员Igor Mordatch表示,因为人工智能代理面临对手造成的复杂,变化的环境,所以这样的比赛会带来一种智力军备竞赛。这可能有助于学习软件学到对控制机器人和其他现实世界任务有价值的复杂技能。

在OpenAI的实验中,简单的人形机器人进入到竞技场,它们甚至不知道如何行走。这些机器人有通过反复试验进行学习的能力,有学习四处移动,打败对手的目标。经过大约十亿次的实验,机器人开发了一些策略,比如,蹲下来让自己更加稳固,诱使对手从拳击场掉落到地面上。研究人员开发了新的学习算法,让玩家能够在一场比赛中调整自己的策略,甚至预测对手何时可能会改变战术。

OpenAI的项目例证了,人工智能研究人员如何试图避免使用率最高的多种机器学习软件的局限性,该软件通过处理大量的标签示例数据获得新技能。这种方法推动了翻译,语音和面部识别等领域的进展。但是,对于让人工智能应用的更为广泛的复杂技能来说,例如通过控制家用机器人,这种方法却是不实际的。

研发更灵巧的人工智能的一个可能途径就是强化学习,软件利用反复试验来实现特定的目标。这就是DeepMind(谷歌收购的伦敦人工智能初创公司)如何让软件控制Atari游戏的方式。该技术现在被用于让软件开始处理更为复杂的问题,例如让机器人捡起物品。

OpenAI的研究人员之所以创建RoboSumo,原因是,他们认为与让强化学习软件单独处理更为复杂的问题相比,由竞争带来的额外复杂性可能会得到更快的进步。卡耐基梅隆大学研究生Maruan Al-Shedivat说:“当你与其他代理进行互动时,你必须适应。如果不这样做,你就会失败。”Maruan Al-Shedivat在OpenAI实习期间参与了RoboSumo的工作。

OpenAI的研究人员也用蜘蛛状的机器人以及其他的游戏(如简单的足球罚球)来测验了这一想法。OpenAI发布了两篇研究论文,有关与人工智能代理进行比赛的工作,以及RoboSumo,其他一些游戏和几位专业球员的代码,。

相扑摔跤可能不是智能机器可以为我们做的最重要的事情。但是,OpenAI的一些实验表明,在一个虚拟竞技场中学到的技能可以转移到其他情境中。当把机器人从相扑场地运送到具有强风的虚拟世界时,机器人还会支撑住保持直立。这表明它已经学会了用普通的方式来控制身体和平衡。

将虚拟世界的技能转化为真实的技能是一个完全不同的挑战。德克萨斯大学奥斯汀分校教授Peter Stone表示,在虚拟环境下工作的控制系统在物理机器人身体中通常都不起作用——这个尚未解决的问题被称为“现实差距”。

尽管尚未公布任何突破,但OpenAI的研究人员仍在研究这一问题。与此同时,Mordatch想给他的虚拟类人生物更多的动力做更多的事情,而不仅仅是进行比赛。他正在考虑一个完整的足球比赛,在比赛中,代理也都必须合作。


02


52AI


52AI,专注服务于普通人的AI 学习和发展,让大众受益于人工智能就是我们的愿望。我们坚信只有对大众收益的科技才是有意义的,也是我们追求的方向。







  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值