这么多人,AI怎么知道你说的是哪个? | 李飞飞团队CVPR论文+代码

夏乙 发自 凹非寺
量子位 出品 | 公众号 QbitAI

保安,保安!抓住那个砸玻璃的人!

对于人类保安来说,理解这个指令是自然而然毫无难度的事。但机器就不一样了:它们能从画面中认出人人人人人,但究竟哪一个才是“砸玻璃的人”呢?

李飞飞领导的斯坦福视觉实验室即将在CVPR 2018上发表的一篇论文Referring Relationships,研究的就是这个问题。

这篇论文提出的“指称关系”任务,是给计算机一个“主-谓-宾”结构的“关系”描述和一张图,让它能将主体(主语对应的那个东西)和客体(宾语对应的那个东西)定位出来。

比如说:

他们要让计算机在这样一个场景中,根据“person - kicking - ball(人在踢球)”这个描述,定位出“踢球的人”和“球”,根据“person - guarding - goal(人在守门)”这个描述,定位出“守门的人”和“球门”。

正确圈出主体和客体,计算机内心需要经历这样一个过程:

如上图所示,整个过程的第一步是用CNN提取图像特征,供算法用来对主体和客体分别进行初步定位。

不过,不是所有的主体和客体都那么容易找出来,比如说人很好识别,但球门就不一定了。几位研究员所用的方法,是先找到主客体之间的关系,这样只要定位出其中一个,就很容易找到另一个。

在这个过程中需要对谓语建模,也就是搞清楚 对主客体关系的描述。他们把谓语看作主体和客体之间的注意力移动,借此找出主客体之间的关系。

从上面的流程图我们也可以看出,根据主体和构建出来的关系描述,可以推断出来注意力转移到的区域,找到客体应该在的位置,并据此修改图像特征。也可以根据注意力转移,从客体推断出主体位置。这个过程,称为predicate shift。

运用predicate shift过程在主体和客体之间反复传递消息,最终就能将这两个实体定位出来

“某人在另一个某人的左边”,这种描述中的两个人,也可以用这种方法定位出来。

“拿着杯子的人”、“站在滑板上的人”等等也都没问题。

李飞飞团队在CLEVR、VRD和Visual Genome三个视觉关系数据集上评估了自己的模型,成绩如下:

想要了解更多细节,请进入亲自读论文撸代码环节~

论文:https://arxiv.org/abs/1803.10362

Keras+TensorFlow实现:https://github.com/StanfordVL/ReferringRelationships

根据斯坦福视觉实验室主页介绍,他们在CVPR 2018上总共发表了三篇论文,除了量子位今天介绍的这一篇之外,还有:

  • What Makes a Video a Video: Analyzing Temporal Information in Video Understanding Models and Datasets
    De-An Huang, Vignesh Ramanathan, Dhruv Mahajan, Lorenzo Torresani, Manohar Paluri, Li Fei-Fei, and Juan Carlos Niebles
    CVPR 2018 (spotlight)

  • Finding “It”: Weakly-Supervised Reference-Aware Visual Grounding in Instructional Video
    De-An Huang, Shyamal Buch, Lucio Dery, Animesh Garg, Li Fei-Fei, and Juan Carlos Niebles
    CVPR 2018 (oral)

这两篇论文的PDF版还未放出,量子位还会继续关注哒。

作者系网易新闻·网易号“各有态度”签约作者


活动推荐

 点击图片阅读原文

即可获取更多详情


联想高校AI精英挑战赛,覆盖全国28个省份、8大赛区和260所高校,经过在中科大、华中科技大学、清华大学、上海交通大学等8所AI领域具有顶尖优势的理工科高校的半决赛路演,产生最终入围总决赛的十支参赛队伍,于3月29日在北京中国科学院计算技术研究所举行全国总决赛。

加入社群

量子位AI社群15群开始招募啦,欢迎对AI感兴趣的同学,加小助手微信qbitbot6入群;


此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。


进群请加小助手微信号qbitbot6,并务必备注相应群的关键词~通过审核后我们将邀请进群。(专业群审核较严,敬请谅解)


诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值