＜Large-Scale Visual Relationship Understanding＞论文阅读

以天为尊，化灵成神

已于 2022-02-15 17:30:09 修改

阅读量330

点赞数

文章标签：深度学习计算机视觉神经网络

于 2022-02-15 17:29:29 首次发布

本文链接：https://blog.csdn.net/weixin_44030303/article/details/122930967

版权

论文链接：论文

论文简介

这是一篇AAAI 2019的论文，论文针对的是大规模的视觉理解问题，其实就是处理视觉关系的广泛分布和数据不平衡问题。文章开发了一种新的关系检测模型，将对象和关系嵌入到两个向量空间之中，同时保留了区分能力和语义亲和力。文章学习了一个视觉和语义模块，将两种形态的特征映射到一共享空间，在这个空间之中，匹配的特征对必须区分那些不匹配的特征对，同时相似的特征对之间要尽可能相近。

论文笔记

①、对象类别通常是语义相关的，这种联系对于物体之间的关系来说更加微妙(这句话我第一次看的是有点懵，后来看了看下面文章所举的例子)。<person,ride,horse>和<person,ride,elephant>的图像特征应该相似(都是人骑着一个动物)，而<person,ride,horse>和<person,walk with,horse>虽然具有相同的主语和宾语，但是图像特征却完全不同。这里是在说关系识别以object,subject为条件，但是object recognition独立于关系之外。

②、Visual Module的设计主要是想要将object和subject独立于relationship的空间，同时涉及object和subject的relationship又包含这个两个物体的特征。

③、网络结构

主要设计思路就是想要将<object,subject>独立于relationship学习，但relationship又与<object,subject>有着很大的联系，所以在relationship分支的每一步之中都融合object和subject信息。也就是想要学习视觉特征到两个独立语义空间的映射(对象和关系)。

④、Semantic Module

这一模块的目的是将单词向量映射到一个嵌入空间，这个嵌入空间比原始单词向量空间更有区别，同时保持语义相似性。为对象/关系标签提供一个好的词向量表示非常重要，因为它提供了易于调优的适当初始化。关于word vector的选择，初始是使用Pretrained word2vec embeddings，而后使用Relationship-level co-occurrence embeddings进行处理，最大化 P (P |S, O) 、 P (S|P, O) 和P(O|S, P)，就是最大限度地根据<object,predict,subject>之中的两个确定另一个的分布。

以天为尊，化灵成神

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
＜Large-Scale Visual Relationship Understanding＞论文阅读

＜Large-Scale Visual Relationship Understanding＞论文阅读
复制链接

扫一扫

＜Large-Scale Visual Relationship Understanding＞论文阅读

论文简介

论文笔记

“相关推荐”对你有帮助么？