＜Visual Relationship Detection with Internal and External Linguistic Knowledge Distillation＞论文阅读

最新推荐文章于 2023-01-12 18:27:47 发布

以天为尊，化灵成神

最新推荐文章于 2023-01-12 18:27:47 发布

阅读量1.6k

点赞数

文章标签：深度学习计算机视觉神经网络

本文链接：https://blog.csdn.net/weixin_44030303/article/details/122881063

版权

论文链接：论文

论文简介：

这是一篇CVPR2018的论文，主要针对的是Visual Relationship Detection任务。论文主要利用谓词及<object,subject>对之间的强相关性(strong correlations)来推断谓词。同样由于这个原因，联合建模比独立建模更能准确地反映三个实体之间的关系，但是由于视觉关系的语义空间巨大(种类过多)，训练数据有限，这会使得学习变得复杂。为了解决这个问题，论文利用语言统计学的知识来学习视觉模型，从训练注释和外部知识之中来计算给定<object,subject>对时谓词的概率分布。同时，作者认为，仅依靠单纯的visual cue难以准确的识别出谓词，提出联合object，subject和他们的空间位置来对谓词进行综合预测。

主要贡献：

利用视觉和语言表征在视觉关系检测中的作用，利用内部和外部语言知识来规范端到端深层神经网络的学习过程，以显著提高其预测能力和泛化能力。

论文笔记：

(1)、论文针对的分类方法是将一整个三元组<object,relationship,subject>看作一类，这种方法面临的是巨大的语义空间，因此论文提出用训练注释和外部知识来作为规范化信息来帮助CNN的训练。

(2)、论文框架：

给定一幅图像，提取其中的三个特征：

①、检测到的物体的联合剪裁图像

②、对象的语义表示

③、从检测到的边界盒对中或得到的空间特征

论文将三个特征连接起来，然后使用真实标签GT和得到的知识来训练一个FC层进行预测输出，将数据驱动的模型称为student Network，语言规范化模型成为Teacher Network

(3)、语言知识提炼(Linguistic Knowledge Distillation)

在语言知识提炼这一模块之中，分为两个部分：

①、初步在DNNs中整合知识及将知识提炼用于Visual Relationship Detection

虽然论文中这两个部分是分开的，但是个人觉得这两部分基本是紧密相连，就放到一块说了。这一步采用的是X. Ma等人在论文<Harnessing deep neural networks with logic rules>的思路，这里放一位大佬的解读

指路：<Harnessing Deep Neural Networks with Logic Rules>解读

所谓knowledge distillation，就是使student network的输出的概率分布不断接近teacher network输出的概率分布。另外teacher network的输出也不是一成不变的，teacher network是根据student network的概率输出及规则空间联合决定的(这里我个人觉得可以理解为生成-判别之间的相互学习，判别网络需结合一些现有的规则，以更符合实际情况)，因此在每一轮更新上都需重新构建teacher network：

使用KL-divergence(又称相对熵(relative entropy)) ,衡量两个概率分布之间的相似程度。

②、语言知识集合(Linguistic Knowledge Collection)

为了得到语言知识的一个先验P(predict|object,subject)，一种简单的方法是统计训练数据的注释信息，但这会带来很严重的Long-Tail问题，论文搜集互联网上的更多不可见的语言知识

(4)、 Semantic and Spatial Representations

论文认为，语义和空间表征捕获了视觉关系之间的相似性，可以更好地概括不可见视觉关系的相似性，使用word embedding来代表语义标签，而空间表征则由如下计算：

而后根据语义表征、空间特征、及区域的联合表示来决定谓词的预测：

以天为尊，化灵成神

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
＜Visual Relationship Detection with Internal and External Linguistic Knowledge Distillation＞论文阅读

<Visual Relationship Detection with Internal and External Linguistic Knowledge Distillation>论文阅读
复制链接

扫一扫

＜Visual Relationship Detection with Internal and External Linguistic Knowledge Distillation＞论文阅读

论文简介：

论文笔记：

“相关推荐”对你有帮助么？