＜Detecting Visual Relationships with Deep Relational Networks＞论文阅读

以天为尊，化灵成神

于 2022-02-10 15:21:18 发布

阅读量1.3k

点赞数

文章标签：深度学习 transformer cnn

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44030303/article/details/122849217

版权

论文链接：<Detecting Visual Relationships>

主要任务：Visual Relationships Detection

主要思想：

由于每种关系之中的视觉外观的高度多样性和大量视觉短语的存在，作者认为传统的将Visual Relationships Detection视为一个分类问题(每种类型的关系(sit)或每个视觉短语(preson-ride-horse))的方法面临着巨大的困难：

(1)、使用视觉短语作为类别，会面临着大量的类别需要识别

(2)、使用每种类型的关系作为类别，会增加每个类别内部的多样性

同时，物体的类别和关系之间有着很强的统计相关性，但object并不是relationship的额外特征，relationship也不是object的特征。为此，作者根据object和relationship之间的统计相关性设计了一个框架，利用物体与关系之间的空间形态和统计相关性来解决上述问题。

论文笔记：

(1)、论文框架

给定一幅图像，首先经过一个object detector模块检测出所有的object。然后对于每对object，提取对应的local regions和spatial masks，再加上每个object的appearance features送进DR-Net，联合所有特征之后输出每个triplet的概率。

(2)、假设一张图像中检测出n个物体，理论上有n(n-1)个object pair，但这其中有许多的object pair显然是不可能的，论文就使用了一个简单的神经网络作为filter来过滤一些不可能的object关系。

(3)、Spatial Configurations

这一模块的设计思路是：两个物体之间的关系也反映在他们之间的Spatial Configurations上，例如他们的相对位置和相对大小。作者使用两个二进制的mask来实现，框架如下：

(4)、 Statistical Relations

物体之间的关系与物体有很强的相关性，这一点在论文<Neural Motifs: Scene Graph Parsing with Global Context>中作者使用了大量实验进行了证明。

(5)、Integrated Prediction

文章采用一个名为DR-Net的网络结构来关联之前我们得到的信息：

在给定object和subject的情况下，关系r的后验概率定义为：

其中，ls和lo是subject和object的one-hot编码。

以天为尊，化灵成神

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
＜Detecting Visual Relationships with Deep Relational Networks＞论文阅读

＜Detecting Visual Relationships with Deep Relational Networks＞论文阅读
复制链接

扫一扫

以天为尊，化灵成神 CSDN认证博客专家 CSDN认证企业博客

码龄6年

8: 原创

48万+: 周排名

110万+: 总排名

8287: 访问

: 等级

87: 积分

1: 粉丝

5: 获赞

7: 评论

4: 收藏

私信

关注

热门文章

最新评论

＜Seeing Out of tHe bOx＞论文笔记与心得
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
＜Exploring Long Tail Visual Relationship Recognition with Large Vocabulary＞论文阅读
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
＜Large-Scale Visual Relationship Understanding＞论文阅读
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
＜Detecting Visual Relationships with Deep Relational Networks＞论文阅读
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34 给我们提。
＜Show, Attend and Tell: Neural Image Caption Generation with Visual Attention＞论文阅读理解
CV视界: 嗯呢，不错，刚入坑先大佬学习~

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。