训练AI太辛苦?OpenAI新方法:不如让AI之间互教吧

Root 编译自 OpenAI 博客
量子位 出品 | 公众号 QbitAI

训练一个AI,往往需要喂大量的正确的合适的样例。

用什么样例合适?判断样例正确的标准是啥?又要多少人力来标注训练的数据?

这些问题想想都头大@_@

所以呢,OpenAI一伙人就在想,有没有可能让AI之间互相训练?

经过一番努力,OpenAI终于设计粗了一种AI互教的方法,且尽可能让AI用人类看得懂的样例来互教。

这种方法会选出一个最小样例合集,目的是用最少的样例把要AI学会的概念表达得最清楚。

打个比方说,要AI搞懂啥是狗,那么这方法就是要找出让AI搞懂的最好的一张图应该是什么样子的。

实验下来发现,介个方法对人类和AI来说,都很有效。

要知道在未来,那些革命性的AI应用,将会来自于机器和人类的共同合作。

不过,要让不同的AI都用同种语言是很难的。换句话说,现在缺乏一种AI通用语言。

试想一下,如果要你判断一个长方形的形状,是给你看长方形内部随机分布的点更容易,还是直接看长方形四个角上的点更简单?

 让机器get到一个长方形的形状的最好showcase是左边的样例还是右边的样例?

当然是后者更快。

让机器互教的方法,是让两个智能体之间玩个合作类游戏,一个当学生,另一个当老师。

这个游戏的目标,对于学生那个神经网络来说,是要根据给出的样例,来get到所要学会的概念,比方说,给张狗狗的图,然后明白啥是汪星人;对于老师那个神经网络来说,就要搞清楚哪些样例教学生的效果最好,最能把事儿表达明白。

介个方法分两个阶段。

首先,随机给“学生”网络输入样例,然后用传统的监督学习型方法去判断出样例背后的标注。

然后,训练“老师”网络找出那些“学生”可以正确标注出来的样例。

通过不同的样例,找出这些样例的最小集。理论上来说就能用最少的样例教会“学生”特定的概念。

但如果像很多沟通类游戏那样,同时训练学生和老师,那么“学生”和“老师”之间有可能会用人类看不懂的样例来沟通。

比方说,“汪星人”这个概念,最终有可能是通过一些骆驼和摩托车图像的任意矢量来编码的,或者对于人类来说,两个看起来随机的点,对学生和老师来说却是个特定的矩形。

为了解释介个技术为什么起作用,可以想象一下,在训练“学生”识别示例图像中的概念时,是基于以下四个属性:尺寸大小(小,中,大),颜色(红色,蓝色,绿色),形状(正方形或圆形)和边框(实或虚)。

在这种情况下,一个概念由一组属性定义的。每个属性都是属于这个概念的子集。

比如说,这个概念是红色圆圈,那么任何尺寸、任何边界的红色圆圈都属于这个概念。

“老师”网络要做的是,找出所有符合这个概念样例的共性,排除掉没有决定性作用的属性。

例如,为了传授“红色”的概念,“老师”选择了一个没有边框的大红色方块,然后是一个带有边框的小红色圆圈。这两种形状的共同属性是红色,所以这个概念只能由红色组成。

OpenAI这套系统能够有效地找出那些最适合学生掌握概念的训练样例。

这种方法适用于布尔型,分层型,概率型和基于规则的概念。

“老师”网络发明的教学技术,可以反映出人类所设计的最优策略。

评价介个方法的另一个标准,是看人类能不能get到“老师”网络挑选出来的样例背后的概念。

结果发现,效果不错。比起随机提供的样例,用“老师”网络选出的样例,人类更能准确地判断出来背后的概念。

尽管,在这次的工作里,OpenAI只关注找出训练用的最有效样例。

但是以后要搞出我们人类能看懂的两个AI的沟通机制,也是可以用这个分开训练、机器互教的思路哒!(前方高能,OpenAI强插了个硬广)

如果你对这个课题感兴趣的话,快点加入OpanAI吧!

详细信息戳介里→https://openai.com/jobs/

最后,附该工作的论文,

https://arxiv.org/abs/1711.00694

编译来源,

https://blog.openai.com/interpretable-machine-learning-through-teaching/

p.s. 还是忍不住讲一句,大家新年快乐呀(。・∀・)ノ゛

加入社群

量子位AI社群13群开始招募啦,欢迎对AI感兴趣的同学,加小助手微信qbitbot5入群;


此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。


进群请加小助手微信号qbitbot5,并务必备注相应群的关键词~通过审核后我们将邀请进群。(专业群审核较严,敬请谅解)

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态



  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值