HOTR: End-to-End Human-Object Interaction Detection with Transformers

最新推荐文章于 2023-07-13 13:54:25 发布

计算机视觉从零学

最新推荐文章于 2023-07-13 13:54:25 发布

阅读量552

点赞数

分类专栏： HOI 文章标签： transformer 深度学习自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_43889476/article/details/125084125

版权

模型在vcoco场景1上的验证效果

模型在vcoco场景2上的验证效果

模型在HICO-DET上的验证效果

HOTR的模型结构图如下所示:
在这里插入图片描述在代码中如何实现的?

在Backbone中:
(1)将图片([bs,3,H,W])送入CNN模型中进行特征提取,使用了ResNet50,得到特征图src([bs,2048,h,w])
(2)引入位置编码pos_embed[bs,256,h,w],query_embed([100,256])
在进入Transformer前,将特征图src降维([bs,256,h,w])
进入Transformer:
(1)Encoder:
首先将src与pos_embed降维,并交换维度:
src由[bs,256,h,w]→[hw,bs,256],
pos_embed由[bs,256,h,w]→[hw,bs,256],
query_embed由[100,26]→[100,bs,256],

B. 将src,pos_embed,query_embed送入Encoder中,得到memory : [hw,bs,256]

(2)Decoder
首先新引入一个全0的Tensor:tgt,其维度与query_embed([100,bs,256])一样
将tgt,memory,pos_embed,query_embed送入Decoder中,得到hs : [6,bs,100,256]

hs的维度为[6,bs,100,256],这是因为在Transformer中将6个Decoder的输出(Tensor[bs,100,256])整合到一个Tensor中,得到维度为[6,bs,100,256]的Tensor

在这里插入图片描述
4. 实例表示:执行目标检测

inst_repr = F.normalize(hs[-1], p=2, dim=2) # 处理最后一个解码器的结果,得到实例表示
outputs_class = self.detr.class_embed(hs) #[6,bs,100,92],class_embed是一个nn.Linear(256,num_classes + 1)
outputs_coord = self.detr.bbox_embed(hs).sigmoid() # [6,bs,100,4], bbox_embed是一个MLP(256, 256, 4, 3)

其中:

self

最低0.47元/天解锁文章

计算机视觉从零学

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
HOTR: End-to-End Human-Object Interaction Detection with Transformers

使用Transformer实现HOI检测,附带自己画的框架图,比较清晰的带你理解HOI检测的流程.
复制链接

扫一扫

专栏目录

计算机视觉从零学 CSDN认证博客专家 CSDN认证企业博客

码龄6年

85: 原创

29万+: 周排名

184万+: 总排名

19万+: 访问

: 等级

1065: 积分

275: 粉丝

151: 获赞

32: 评论

1380: 收藏

私信

关注

热门文章

分类专栏

蓝桥杯 9篇
论文笔记 7篇
从零学Python 6篇
HOI 2篇
安装配置 6篇
python学习笔记 2篇
行为识别 6篇
笔记 2篇
python 1篇
语义分割 1篇
pytorch 5篇
图像分类 8篇
目标检测 11篇
机器学习 31篇
西瓜书 3篇
Matlab编程 31篇

最新评论

MATLAB图像分割——标记分水岭分割算法
weixin_54291831: 博主您好，我这段的fgm无法用imshow显示出来，这是什么原因呢？ fgm=imregionalmax(Iobrcbr) ; %局部极大值 figure; imshow(fgm); %显示重建后局部极大值图像错误使用 images.internal.imageDisplayValidateParams>validateCData (第 122 行) 如果输入项为逻辑值(二进制)，则必须是二维的。出错 images.internal.imageDisplayValidateParams (第 30 行) common_args.CData = validateCData(common_args.CData,image_type); 出错 images.internal.imageDisplayParseInputs (第 79 行) common_args = images.internal.imageDisplayValidateParams(common_args); 出错 imshow (第 253 行) images.internal.imageDisplayParseInputs({'Parent','Border','Reduce'},preparsed_varargin{:}); 出错 xingtaixuequfan (第 23 行) imshow(fgm); %显示重建后局部极大值图像
MATLAB图像分割——使用纹理滤波器分割图像
AYu~: 请问有完整代码吗
MATLAB图像分割——标记分水岭分割算法
万象=更新: 谢谢翻译
matlab简单处理图像
2301_77782934: 您好打扰了我想对图像进行快速傅里叶变换，振幅谱乘以以0°（垂直）或90°（水平）为中心的高斯过滤器（标准差为14°），您能帮助我用Matlab编写脚本实现吗
pytorch实现AlexNet
qq_15166561: epoch=10的时候，训练集的准确率就达到了70%，算相当高了，你测试集的准确率有多少呢？

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。