DN-DETR的原理和源码解读

最新推荐文章于 2024-09-15 18:10:00 发布

Attention is all you

最新推荐文章于 2024-09-15 18:10:00 发布

阅读量266

点赞数 3

分类专栏： BEV感知系列文章标签：深度学习人工智能 transformer 目标检测计算机视觉

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zwhdldz/article/details/137825649

版权

BEV感知系列专栏收录该内容

17 篇文章 1 订阅

订阅专栏

在decoder中:
query就是代表tgt信息,
于是用gt+noise生成几个known_query,known_query无需匈牙利直接和gt匹配.使得模型可以去噪.

一些骚操作:
1.box偏移不能太过,否在假如跑到别的gt上去了,那就说不通了.
解决方法:box的xy偏移小于wh的一半就好啦
2.decoder的自注意力,ori_query如果提取到known_query信息等于给了gt的先验,不利于模型学习.
known_query如果跨组提取了对应的box信息也等于给了gt的先验,不利于噪声学习.因次设置att_mask,防止以上两种干扰.
3:每一张图的gt数量不一致,那么cat(query,known_query)数量不一致,无法batch训练.
解决方法:老一套,少的图补零.

心得体会:
拿知识蒸馏来对比,最后一层的known_query先当于teacher生成的soft_label,两个loss共同指导模型收敛.

源码解读:
假设batch为2,
b_id=0 gt=[l0,dim],
b_id=1 gt=[l1,dim],
合并gt_all=[l0+l1,dim]
对dim维度信息进行适当的offset,就是noise
拆分batch,合并ori_query_pos=[l_ori,dim]
考虑目标最多的图的目标数量lmax
最后的query_pos=[b,lmax+l_ori,dim],为什么不搞个mask标记补充的000
att_mask用于上述的骚操作2

Attention is all you

关注

3
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Attention is all you 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。