ECCV 2018| Learning Human-Object Interactions by Graph Parsing Neural Networks阅读笔记

本文主要是为了解决图像和视频中的HOI任务,引入了图解析神经网络(GPNN),是一个利用结构知识的端到端的可分辨结构。给出一个场景,GPNN能够推断出一个解析图,并且包含(1)使用邻接矩阵表示的图结构(2)节点标签。当消息传递到网络中是,GPNN就会迭代计算出邻接矩阵与节点标签。在V-COCO、HICO-DET、CAD-120上评估该方法都取得了较好的效果。

论文地址:http://cn.arxiv.org/abs/1808.07962
代码地址:https://github.com/SiyuanQi/gpnn

研究背景

深度神经网络(DNN)在实例识别的单个任务上取得了一定的进展,但是HOI领域的进展却没有那么理想,因为HOI需要超越感知的推理,将人体、物体、以及他们之间复杂的关系聚合在一起。
人-物交互
之前HOI理解研究了贝叶斯模型,利用人与物之间的上下文关系,通过空间交互和上下文信息来学习结构化的表示,利用分解模型,或者参考HOI范例,主要基于人/物的手工特征。随着深度学习的发展开始出现基于深度学习的模型,使用带有VQA的RCNN模型用于HOI识别;使用zero-shot学习来解决HOI识别中的长程问题;将人/物的建议框,以及它们的组合一起送入到多流网络中,用于解决HOI检测问题;使用一个修正的faster RCNN结构,估计一个特定动作的密度图来识别交互的物体的位置。
但是其中仍然存在两个问题:
(1)仍然缺乏有效的工具来清晰的表示HOI任务中的结构并将这些结构高效的编码到现现代网络结构。
(2)仍然缺乏完整和通用的HOI表示,这些方法无法很容易的扩展视频中的HOI识别。
因此本文将高级的联系加到DNN中,产生了一个高效的HOI表示,既能用在静态也能用在动态的设置中。
具有图模型的神经网络
之前带有图模型的神经网络是直接在DNN上加入图形模型,先训练他的特征生成网络,其输出用于计算图形预测器的是势函数,通常用于姿态估计,人体部分解析和语义分割,但是这些方法缺乏深度集成以至于对图模型的计算过程无端到端的学习。一些方法试图将神经网络的操作(如卷积)直接从规则网格(图像)推广到图。然而对于人物交互,需要捕获人与物之间的高级时空联系。在本文中使用图结构扩展之前的图神经网络,能够利用HOI中的丰富和高级的联系,GPNN能够自动的推断出图结构,并利用该结构促进信息的传播与进一步推理。能够对时间和时空设置提供通用的HOI表示,我们的方法是第一个将图模型和神经网络集成到一个同一的网络总,并在HOI识别上获得了领先的效果。

研究内容

本文提出了一个图解析神经网络(GPNN),该方法使用图来显示的表达HOI结构并且采用端到端的方式自动的解析出最优的图结构。其结构如下图所示:
在这里插入图片描述(1)为了寻找一个利用神经网络学习能力和图像表示能力的统一框架,但是最近的一些基于深度学习的HOI模型几乎没有很好的解释与利用这种结构化任务中的时空依赖性与人物之间的关系,因此我们提出了GPNN,它继承了神经网络和图形模型的互补优势,形成了具有较强学习能力的符合逻辑的HOI表示。对于HOI图形的结构化表示,可以明确的利用各个元素之间丰富的关系,并且他们之间的信息能被高效的聚合在一起,在结构上进行广播。整个模型和消息传递操作都是定义好的且是可分辨的,因此,可以采用端到端的方式从数据中学习。
(2)GPNN可以用于静态和动态场景中的不同的HOI任务,之前的研究主要是在时域或空域上,但是却没有能够同时用于图像和视频的HOI学习和表示的框架。关键的困难在于各个成分可能存在不同的关系,给出人/物候选目标,可能不确定的交互对的数量,并且当考虑到时间因素后,这些关系可能会更加复杂。为了获得更好的泛化能力,GPNN采用一个链接函数用于解决图结构学习问题,使用端到端的方法推断出邻接矩阵,推断出能够清晰解释HOI关系的解析图。同时GPNN能够从不相关的节点中限制信息流但是鼓励信息在相关的节点之间传播。

本文贡献:
(1)提出了GPNN,它结合了结构知识与DNN用于学习和推理
(2)通过一些定义好的模块化函数,GPNN联合进行图结构推理和消息传递来解决HOI问题
(3)GPNN提供了一个用于静态与动态设置的可扩展和通用的HOI 表示。

研究方法

1.表达方法
将人与物体用节点来表示,他们的关系被定义为边,一个完整的HOI图包含人与物之间所有可能的关系,我们希望能够通过保留有意义的边和标记节点自动推断出解析图。
在这里插入图片描述
G= (V,E,Y) 表示一个完整的HOI 图,节点v∈V的值为{1,···,|V|},边e∈E 是一个二元组(v,w)∈V×V。每个节点的输出状态yv∈ Y其值为{1,···,Yv}。一个解析图g= (Vg,Eg,Yg)是G的一个子图,Vg⊆V和Eg⊆E,当给出了点的特征ΓV,和边的特征Γe,我们想要推断出最优的解析图g,其能够根据概率分布p最好解释那些数据:
在这里插入图片描述

Γ={ΓVE},p(Vg,Eg|Γ,G) 评估了图结构,p(Y g|Vg,Eg,Γ)表示解析图中的节点的标签概率。设计该网络来近似p(Vg,Eg|Γ,G) 与p(Y g|Vg,Eg,Γ)的计算。在GPNN的前向传递过程中,引入4种函数作为独立的模块,链接函数,消息函数,更新函数,读出函数。

链接函数:估计该图的结构,并计算p(Vg,Eg|Γ,G),
消息函数,更新函数,读出函数:类似与信息传递过程并近似参数p(Y g|Vg,Eg,Γ)

链接函数采用边的特征作为输入,并推断出节点之间的联系,然后建立起软邻接矩阵,用于消息通过节点之间的边进行传递的权重,节点的传入消息通过消息函数进行汇总,通过更新函数根据消息更新节点的隐藏嵌入状态,最后读出函数计算每个节点的目标输出。这四种函数的定义如下:

  • 链接函数:推断出表示节点之间联系(图结构)的邻接矩阵,其表示为
    在这里插入图片描述
    Avw表示矩阵A的第(v,w)项,Γv表示节点特征,Γvw表示边的特征,因此解析图g的结构可以通过邻接矩阵近似,然后在解析图上开始消息传播,软邻接矩阵控制信息在边之间进行传递。

  • 消息函数和更新函数
    消息传递算法根据学到的图结构推断节点的标签,在传递过程中,节点的隐藏状态通过和其他节点的交流进行迭代更新,消息函数将来自其他节点的消息汇总到节点中,更新函数根据传入消息更新隐藏节点状态
    在这里插入图片描述

mvs表示节点v在第s次迭代的汇总的传入消息,hvs表示节点v的隐藏状态。节点的连接性A鼓励解析图的节点之间进行信息流动,消息传递阶段运行S次开始收敛,在第一步,hv0通过节点特征Γv被初始化。

读出函数:对每个节点,隐藏状态送入一个读出函数来输出标签。R通过激活节点v的隐藏状态hvs计算输出yv.
在这里插入图片描述

迭代解析:通过以上函数,消息在图之间进行传递并通过学习的邻接矩阵A进行加权,将上面过程扩展到一个联合的学习框架,进行迭代地推断图结构,传递消息以推断出节点的标签。不仅仅是在开始时学习A ,我们还使用更新的节点信息和每个s的边的特征来迭代地推断A

在这里插入图片描述

那么上面的公式(3)可以重新定义为:
在这里插入图片描述

2. 网络结构

  • 链接函数
    G= (V,E,Y) 表示一个完整的HOI 图,dV和dE分别表示节点,边的特征的维度,在消息传递的步骤s中,首先将所有的节点特征(隐藏状态){hvsv和所有的边特征(消息){mvs}v,w连接起来形成一个特征矩阵Fs.链接函数就是一个或几个卷积层和一个激活函数中的神经网络,邻接矩阵A 的计算为:
    在这里插入图片描述

使用多个1*1卷积核的作用相当于应用到每个边的特征的全连接层,并且滤波器的权重被所有的边共享.
对于时空问题,在时间域使用LSTM卷积进行建模,在时刻t,Fs,t表示输入特征,As,t-1作为隐藏状态:
在这里插入图片描述

  • 消息函数:公式(3)中的M函数使用如下方式进行计算[]表示连接操作:
    在这里插入图片描述
  • 更新函数:使用GRU单元作为更新函数,
    在这里插入图片描述
  • 读出函数,采用全连接层后面跟一个激活函数,这里的激活函数φ可以根据不同的任务使用softmax函数(one-class output)或者sigmoid函数(mutil-class output):
    在这里插入图片描述
    其过程如下图所示:
    在这里插入图片描述

实验

在V-COCO和HICO-DET进行评估该方法,人与物被表示为节点,他们之间的交互被表示为边,使用预训练的可变性卷积来进行目标检测和特征提取,从卷积层中的PS ROI pooling层提取7780的节点特征,从边界框的组合中提取边的特征(包含两个节点的最小边界框),

在链接函数中使用128-128-1的卷积网络,卷积核为1*1,使用sigmoid函数

消息函数由全连接层,连接,总和组成.对于节点v,其相邻节点特征Γw与边的特征Γvw通过全连接层进行传递并被连接起来.最终接受到的消息就是其他所有邻接节点的消息的加权求和,节点v中通过边e=(v,w)来自于节点w的信息就是将两个全连接层的输出连接起来,然后使用GRU来更新消息.传播的迭代次数s设置为3.最后使用两个全连接层加上sigmoid激活函数

对于人物交互对的HOI标签的概率就是将人体节点和物体节点的最后的输出概率相乘,对邻接矩阵使用L1损失函数,对于节点的输出,使用加权的多类多标签链式损失,原因是:训练样本不均衡,因此对于每个节点使用多标签.

GPNN在HICO-DET数据集上结果
在这里插入图片描述
GPNN在V-COCO数据集上评价结果
在这里插入图片描述

结论

本文突出图解析神经网络(GPNN),能够使用端到端的方式推断出解析图,该解析图包含两部分,一个是HOI图结构用邻接矩阵表示,另一个是节点标签.该网络由4个不同的函数进行解析图推理与消息传递,链接函数生成图结构(即邻接矩阵),消息函数将不同的邻接节点的消息进行汇总,更新函数对节点的隐藏状态进行更新,最后的读出函数将节点隐藏状态激活并生成对应的标签.该方法在v-COCO上达到了最高44.5%.

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值