MOTRv2论文阅读总结

摘要

在MOTR的基础上加入了额外的目标检测器,把锚点query作为detect query的先验。

Introduction

首段指出,在Dancetrack等数据集上,传统方法表现欠佳,这意味着现有MOT方法对复杂运动的研究有待改进。第二段说明了MOTR性能的不足,作者认为原因在于JDT方法和数据关联过程有冲突。在此基础上,有一种改进方式是直接将track query的预测和额外detector的结果做匹配,然而这种方式不仅违反了作者端到端设计的初衷,同时也并未取得较好效果。

第三段介绍了MOTRv2对原版的改进。作者类比对DETR的改进(基于anchor来初始化object query),提出用基于锚点的sin-cosPE代替原有detect query中可学习的PE,从而把decoder任务转化为预测锚点的偏移。

Method

研究的动机:MOTR网络同时学习detection和association,这两个任务难以平衡(有冲突),能否把detection交给sota检测器去做,MOTR网络专心学association?

总体结构

三部分:YOLOX,Proposal Query Generation,交互模块

Proposal Query Generation介绍

初始的proposal query生成

shared query(广播后)+由置信度生成的sin-cosPE

问题:两次PE的结果是怎么样的?

按我的理解,最终embedding的结果是由置信度(或P向量)与PE拼接得到

proposal传递

先看DAB-DETR结构

MOTRv2的proposal传递结构

从第0帧看起,qs可以理解为MOTR中的detect query,第一次self attention的目的是把上一帧传递过来的embedding(qtr)做特征提取,结果作为Deformable attention的K。Deformable attention的Q由YOLOX proposal经refine后得到,也就形成了一个anchor-based结构,Q相当于anchor,K相当于新的proposal,V是原图像的特征,这次attention的输出是基于anchor搜索后得到的img feature,再通过MLP得到anchor的补偿量,与YOLOX给出的anchor进行运算即可得到预测。

同时,输出也会作为当前帧的track query集合输入到下一帧,图中的这个过程省略了QIM模块,QIM模块会分别处理track query得到的预测和shared query得到的预测,其中qs用于预测新出现物体,根据置信度阈值选择高分物体加入track query,qtr用于确认已跟踪物体,置信度低的会放到query memory bank中等待后续处理(重新检测到并返回track query,或者寿命达到上限被删除),置信度高的作为一个query输入TAN去与之前bank中的query做attention,得到最终track的结果,与新出现的query合并后作为下一帧的track query集合输入。

当然,这部分只考虑了bbox的预测,ID匹配是通过MOTR的两个机制实现的:

1 一个query只用于预测一个物体,即该query的预测结果是带有ID标识的

2 loss设计要考虑到ID错误的惩罚 (没有看出MOTR的loss设计有该部分)

### CVPR 2023 目标跟踪研究论文及成果 #### 基于深度强化学习的目标跟踪算法 研究人员在CVPR 2023上展示了基于深度强化学习的目标跟踪算法,该类算法使代理能够在与环境持续互动过程中逐步优化目标跟踪策略。通过设计合理的奖励函数和价值函数,在复杂背景下实现高精度的目标定位成为可能[^1]。 #### 论文资源获取途径 对于希望深入了解这一前沿技术并获得具体实施细节的研究者而言,《CVPR 2023论文代码检索目录》提供了便捷的访问渠道,其中收录了超过500篇计算机视觉领域的顶级会议论文以及对应的开源项目链接,涵盖了多种子领域和技术方向,包括但不限于单/多目标追踪等任务[^2]。 #### 特定案例分析——MOTRv2 一篇值得关注的具体实例是《MOTRv2: Bootstrapping End-to-End Multi-Object Tracking by Pretrained Object Detectors》,这篇发表于CVPR 2023的工作探讨了如何借助预训练的对象检测器提升端到端多对象跟踪系统的性能表现。文中不仅介绍了创新性的模型架构改进措施,还分享了一系列实验验证结果,证明所提方案的有效性和优越性[^4]。 ```python import requests from bs4 import BeautifulSoup def fetch_cvpr_papers(year=2023, keyword="object tracking"): url = f"https://openaccess.thecvf.com/CVPR{year}" response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') papers = [] for link in soup.find_all('a'): title = link.string href = link.get('href') if keyword.lower() in str(title).lower(): paper_info = { "title": title, "link": href } papers.append(paper_info) return papers[:5] papers = fetch_cvpr_papers() for idx, paper in enumerate(papers, start=1): print(f"{idx}. {paper['title']}: https://openaccess.thecvf.com/{paper['link']}") ```
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值