AAAI-场景图生成的深度生成概率图神经网络Deep Generative Probabilistic Graph Neural Networks for Scene Graph Generation

文章地址:Deep Generative Probabilistic Graph Neural Networks for Scene Graph Generation.

简介

图像视觉理解是计算机视觉中一个很重要的任务,理解一个场景并不仅仅是识别出场景中的所有物体,物体之间的相互关系也是很重要的信息。为了表征这种语义,一些论文引入了场景图(scene graph)的概念,其中的节点表示对象,边则表示对象之间的关系。
在这里插入图片描述
如上图所示,图片提供的信息除了碗中有橘子和苹果等水果之外,还有碗在桌子上,水果在碗中这一信息;右图则强调小女孩骑在马上,这种隐藏的逻辑关系对于帮助理解图像信息有重要的作用,文章就是针对这一问题提出了一个新的算法(DG-PGNN),来帮助更好的生成场景图。

工作创新

  • 提出了一个新的算法(DG-PGNN)用于表示与场景图相关的不确定性
  • 一种新的场景图构造算法,在完全可区分的概率框架中结合了深度特征学习和概率消息传递。
  • 第一次显式利用图像的文本信息来为图像构建场景图。

以往的方法先是学习了这些边和节点的表达,再用这些嵌入来获取各个节点和边的类型。但是这些方法并不能利用图像中丰富的结构信息,本文作者提出了适合表征 Scene Graph 的 Probabilistic Graph Network(PGN)。在 PGN 中,边和节点都被表示成了用于 CNN 的特征向量,边和节点的种类则被表示成概率质量函数(probability mass function,PMF)。

其算法的实现步骤如下:

  1. 首先利用 Deep Q-Learning 框架学习最优排序,从而依次在当前的 partial PGN 上增加新节点,
  2. 然后通过RL选择一个新节点,RL 的奖励 reward 则根据输入图像的 ground-truth 场景图进行定义。
  3. 添加节点后,通过消息传递来更新当前 PGN 的特征向量。使用更新的特性对 PMFs 进行微调。在这里插入图片描述

文章主要涉及的概念与方法如下:

概率图网络:PGN 是基于一个图(文中为场景图)G = (V, E) 建成的。其中 V 为节点的集合,E 为边的集合。假设边的种类有 K 种,那么就有 K 个 E_k(k ∈ {1, . . . , K}) 矩阵,每个矩阵中包含了某条边属于某个类别的可能性,如 E_k(u, v) 就表示从节点 u 到节点 v 的边可以表示为 k 的可能性。

Q-Learning:建立一个包含了所有的节点和所有边的Complete PGN ,为 Q-Learning 过程提供原始的特征向量和 PMF(用于更新),假设当前状态(某个 Partial PGN)的状态为 s,那么 Q-Learning 的输入是这样的:
在这里插入图片描述这里的 g 是整个图像的特征向量(Complete PGN 建立过程中 152 层 ResNet 的最后一层输出),置信度矩阵 p = [p(1), …, p(N)],p(j) 代表第 j 个框的置信度(目标检测过程中),d 表示了当前节点的状态,如 d(v) = 1 则表示节点 v 已经被选择过,0 则表示其还没被选择过。o^n 和 o^e 都是目前 PGN 的特征向量(初始化为 0 向量),h 和 n 则分别为边向量和节点向量。

目标函数
在这里插入图片描述
其中 r 为当前 reward,A 表示可以选择的动作,(s + v)表示加入节点 v 后的。因此,参数的更新过程为:
在这里插入图片描述

实验部分

数据集:视觉基因组(VG)包含108077个图像。 注释提供主谓宾三元组本文。训练和测试拆分包含70%和30%的图像。

评价指标:Top-K recall (Rec@K)

消融实验:分别进行了不使用DG-PGNN算法,使用DG-PGNN算法但是不使用注解, 使用DG-PGNN算法,和使用DG-PGNN算法且用VGG代替ResNet

实验结果
在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值