论文链接:论文
论文简介
这是一篇AAAI 2019的论文,论文针对的是大规模的视觉理解问题,其实就是处理视觉关系的广泛分布和数据不平衡问题。文章开发了一种新的关系检测模型,将对象和关系嵌入到两个向量空间之中,同时保留了区分能力和语义亲和力。文章学习了一个视觉和语义模块,将两种形态的特征映射到一共享空间,在这个空间之中,匹配的特征对必须区分那些不匹配的特征对,同时相似的特征对之间要尽可能相近。
论文笔记
①、对象类别通常是语义相关的,这种联系对于物体之间的关系来说更加微妙(这句话我第一次看的是有点懵,后来看了看下面文章所举的例子)。<person,ride,horse>和<person,ride,elephant>的图像特征应该相似(都是人骑着一个动物),而<person,ride,horse>和<person,walk with,horse>虽然具有相同的主语和宾语,但是图像特征却完全不同。这里是在说关系识别以object,subject为条件,但是object recognition独立于关系之外。
②、Visual Module的设计主要是想要将object和subject独立于relationship的空间,同时涉及object和subject的relationship又包含这个两个物体的特征。
③、网络结构
主要设计思路就是想要将<object,subject>独立于relationship学习,但relationship又与<object,subject>有着很大的联系,所以在relationship分支的每一步之中都融合object和subject信息。也就是想要学习视觉特征到两个独立语义空间的映射(对象和关系)。
④、Semantic Module
这一模块的目的是将单词向量映射到一个嵌入空间,这个嵌入空间比原始单词向量空间更有区别,同时保持语义相似性。为对象/关系标签提供一个好的词向量表示非常重要,因为它提供了易于调优的适当初始化。关于word vector的选择,初始是使用Pretrained word2vec embeddings,而后使用Relationship-level co-occurrence embeddings进行处理,最大化 P (P |S, O) 、 P (S|P, O) 和P(O|S, P),就是最大限度地根据<object,predict,subject>之中的两个确定另一个的分布。