<Large-Scale Visual Relationship Understanding>论文阅读

论文链接:论文

论文简介

        这是一篇AAAI 2019的论文,论文针对的是大规模的视觉理解问题,其实就是处理视觉关系的广泛分布和数据不平衡问题。文章开发了一种新的关系检测模型,将对象和关系嵌入到两个向量空间之中,同时保留了区分能力和语义亲和力。文章学习了一个视觉和语义模块,将两种形态的特征映射到一共享空间,在这个空间之中,匹配的特征对必须区分那些不匹配的特征对,同时相似的特征对之间要尽可能相近。

论文笔记

①、对象类别通常是语义相关的,这种联系对于物体之间的关系来说更加微妙(这句话我第一次看的是有点懵,后来看了看下面文章所举的例子)。<person,ride,horse>和<person,ride,elephant>的图像特征应该相似(都是人骑着一个动物),而<person,ride,horse>和<person,walk with,horse>虽然具有相同的主语和宾语,但是图像特征却完全不同。这里是在说关系识别以object,subject为条件,但是object recognition独立于关系之外。

②、Visual Module的设计主要是想要将object和subject独立于relationship的空间,同时涉及object和subject的relationship又包含这个两个物体的特征。

③、网络结构

          主要设计思路就是想要将<object,subject>独立于relationship学习,但relationship又与<object,subject>有着很大的联系,所以在relationship分支的每一步之中都融合object和subject信息。也就是想要学习视觉特征到两个独立语义空间的映射(对象和关系)。

④、Semantic Module

        这一模块的目的是将单词向量映射到一个嵌入空间,这个嵌入空间比原始单词向量空间更有区别,同时保持语义相似性。为对象/关系标签提供一个好的词向量表示非常重要,因为它提供了易于调优的适当初始化。关于word vector的选择,初始是使用Pretrained word2vec embeddings,而后使用Relationship-level co-occurrence embeddings进行处理,最大化 P (P |S, O) 、 P (S|P, O) 和P(O|S, P),就是最大限度地根据<object,predict,subject>之中的两个确定另一个的分布。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值