AS-Net阅读笔记

AS-Net是2021年提出的一个HOI模型,就本人理解而言,是对HOTR的一个改进吧,HOTR用指针,将实例和动作联系起来了,并把三元组预测认为是一个集合预测问题。而AS-Net在介绍里说自己把HOI预测重构成一个自适应的集合预测。

在这里插入图片描述和HOTR类似,它为了将实例和动作联系起来,就在两个并行的解码器中间加了个实例感知注意力。其实现在的理解来看,就是通过这个实例感知注意力,将实例和动作对应的权重进行分配,来达到预测三元组类似的结果。

模型的同样是先将图片进行CNN得到特征,放入共享的编码器后,通过自注意力机制细化后,得到一组共享的向量I‘s。

1、实例层的组成

与DETR类似,以一组可以学习的位置嵌入序列作为query,以刚才经过编码器得到的向量I’s作为key经过co-attention,得到的pre为Fd,将Fd输入到3个感知层,得到实例的语义嵌入、类别和一个预测区域。

2、交互层

也是把经过编码器得到的向量I’s作为key,将一组可以学习的位置嵌入序列作为query,得到的Fr‘’输入到3个MLP,得到动作的类别预测,属于交互类别预测得到的人的语义嵌入和目标的语义嵌入。

动作感知注意力模块

首先计算一个亲和力得分图
在这里插入图片描述
其中两个Wr,Wd和br、bd是一个可以学习的向量,第一个矩阵乘以另一个矩阵的转置,本质上还是算余弦值,算的是向量的相似度。得到的亲和力矩阵经过softmax把数值固定在【0,1】之间,就可以计算
在这里插入图片描述
Mij代表的意思是第j个预测实例相对于第i个预测实例的关注度,即权重。有了权重,就可以计算最后的输出的交互向量在这里插入图片描述
这个经过权重变换后的交互特征,实例和特定动作是相联系的。
这里在计算损失的时候,也用来计算了push损失和pull损失。
其中push损失定义是
在这里插入图片描述
各个实例之间推开的距离,t是 超参数,是一个预定义的阈值,超过t,则push损失为0,相减的两个变量都是来自实例分支中的向量Fd。
在这里插入图片描述
还要计算一个pull损失,其中第一个变量是交互分支中的人实例向量,第二个是实例分支中对应的人实例向量,第三个向量是交互分支的目标特征,第四个实例分支中的对应的目标特征。

最后的匹配策略:

在这里插入图片描述
采用交互向量中对应位置减去交互分支预测的人和物体实例的中心点
在这里插入图片描述
这个R是由上述的两个分支的val得到的 向量算出

最后分数是这个在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值