![](https://img-blog.csdnimg.cn/20201014180756738.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
MOT
文章平均质量分 89
此心安处是吾乡_
人生是一场长跑
展开
-
[论文阅读笔记33] Matching Anything by Segmenting Anything (CVPR2024 highlight)
MOT的本质是在帧间进行同一个目标的稳定关联。现有的MOT主要依赖于特定domain的数据集(比如行人MOT challenge,车辆VisDrone等),限制了cross domain的泛化性。针对这个问题,作者提出了MASA,可以实现在任意域中跟踪任意目标。具体来说,利用SAM能够给出的丰富的目标分割,MASA的任务就是通过data augmentation学习一个instance level的对应。原创 2024-06-27 16:40:55 · 1293 阅读 · 1 评论 -
[论文阅读笔记32] Object-Centric Multiple Object Tracking (ICCV2023)
无监督的object-centric learning(OCL)可以将场景划分为多个object,而无需进行先验的定位(例如pretrain的detector)。这正好可以解决MOT标注信息繁多、困难的问题。空间上,OCL没有正确认识整个物体的语义信息,导致物体往往被划分成了很多parts时间上,OCL也无法准确地维护帧间连续性。原创 2024-06-22 17:09:06 · 985 阅读 · 0 评论 -
[论文阅读笔记30] (AAAI2024) UCMCTrack: Multi-Object Tracking with Uniform CMC 详细推导
在多目标跟踪中,相机不规则运动一直是一个难题,这是因为相机的快速运动会导致目标在画面中的位置发生突变,这样就很难再和过去的轨迹关联起来。一种办法是采用相机运动补偿(Camera Motion Compensation)方法,但是现有的利用CMC的方法速度都是比较慢的。为了解决这个问题,作者提出了一种新的Kalman Filter的方式,即将目标的运动状态与地面联系起来(地面就是画面中真实的地面,我认为这才是这篇论文核心的contribution。原创 2024-04-08 23:20:47 · 1385 阅读 · 7 评论 -
[杂记]mmdetection3.x中的数据流与基本流程详解(数据集读取, 数据增强, 训练)
之前跑了一下mmdetection 3.x自带的一些算法, 但是具体的代码细节总是看了就忘, 所以想做一些笔记, 方便初学者参考. 其实比较不能忍的是, 官网的文档还是空的…这次想写其中的数据流是如何运作的, 包括从读取数据集的样本与真值, 到数据增强, 再到模型的forward当中.原创 2024-02-19 22:21:02 · 1290 阅读 · 0 评论 -
[论文阅读笔记29]MOT+CLIP: Generalizing MOT to Unseen Domains by Introducing NL Presentation
继CLIP大火之后, 许多基于CLIP的工作都应用在各种各样的视觉下游任务中, 例如检测, 分割, 风格迁移, 视频动作识别, 视频文本检索等等. 跟踪也不例外, 今天想对这篇文章做一个笔记, 据我所知应该是第一篇将MOT与CLIP结合的文章, 用以通过对目标更高阶的信息表示(也就是自然语言表示)来解决域适应的问题(因为如果将一个目标描述为"穿着红衣服的人", 那么这种目标不论在哪个数据集中都具有相似的特征).论文: Generalizing multiple object tracking to unse原创 2024-02-05 10:57:58 · 1063 阅读 · 8 评论 -
[论文阅读笔记28] 对比学习在多目标跟踪中的应用
对于预测的一个边界框, 如果它和某个真值的IoU大于。原创 2023-12-24 21:46:44 · 1429 阅读 · 0 评论 -
[论文阅读笔记27]Occlusion-Aware Detection and Re-ID Calibrated Network for Multi-Object Tracking
在MOT任务中, 遮挡一直是一个有挑战性的问题. 遮挡不仅会降低检测效果, 导致轨迹碎片化, 还会影响Re-ID的精度. 为此, 我们提出了ORCTrack解决遮挡问题. 具体地, 我们提出了一个关注遮挡的注意力模块(Occlusion-Aware Attention Module), 这个模块的目标是突出目标特征, 抑制背景特征, 进而提升检测器对潜在被遮挡目标的精度. 此外, 我们还设计了基于最优传输的Re-ID特征匹配模块, 目的是利用帧间的互补性对Re-ID特征进行增强和校准.原创 2023-10-05 10:54:06 · 842 阅读 · 2 评论 -
[论文阅读笔记24]Social-STGCNN: A Social Spatio-Temporal GCNN for Human Traj. Pred.
行人轨迹预测是一个比较有挑战性的任务, 有着许多的应用. 一个行人的轨迹不仅是由自己决定的, 而且受其周围目标的影响. 过去的方法都是学习每个行人自己的运动状态, 然而本文的方法是用一个GNN对整个场景的行人之间的interaction进行建模. 本文提出的方法叫Social-STGCNN, 是在STGCNN(一个基于骨架的action recognization的方法) 的基础上拓展到轨迹预测任务中的.原创 2023-07-24 21:00:41 · 1813 阅读 · 1 评论 -
[论文阅读笔记23]Adaptive Sparse Convolutional Networks with Global Context Enhancement for ... on drone
题目当中有三个关键词, 对应了本篇文章的三个关键点: Adaptive, Global和Faster. 作者针对小目标检测的稀疏卷积的问题, 做出了两个改进: 自适应mask比例, 和上下文增强.第一句: 背景+意义. 强调UAV下的目标检测很重要, 速度也很重要.第二句: 引出本篇论文的研究对象, 即稀疏卷积. 稀疏卷积可以平衡精度与速度.第三句小目标情况下上下文信息的不充分+不同尺度下mask比例难以控制.第四句本文propose了什么, 针对问题1是如何做的, 问题2是如何做的。原创 2023-07-20 10:47:57 · 1279 阅读 · 11 评论 -
用TrackEval评测自己的数据集
跑通代码最重要的就是路径问题, 为此我写了两个config模板, 让配置路径更简单.原创 2023-04-13 11:19:36 · 2406 阅读 · 20 评论 -
[论文阅读笔记22]Identity-Quantity Harmonic Multi-Object Tracking
通常的MOT算法在匹配阶段时, 都是通过线性指派问题求解, 即会计算一个代价矩阵, 例如代价矩阵的行表示轨迹, 列表示检测, 元素代表轨迹与检测之间的相似度. 往往是通过匈牙利算法等求解出代价矩阵的最佳匹配. 但是这都基于一个前提, 即对于代价矩阵C∈Rm×nC∈Rm×n的匹配结果A∈01m×nA∈01m×n, 满足∑i1nAki1∀k1m∑i1mAik1∀k1ni1∑nAki1∀k。原创 2023-04-09 12:41:35 · 807 阅读 · 0 评论 -
[论文阅读笔记20]MotionTrack: Learning Robust Short-term and Long-term Motions for Multi-Object Tracking
这篇文章着力于解决长时设计了一个交互模块(Interaction Module), 来学习短轨迹之间的相互作用. 简单来说, 就是根据目标相邻两帧的的偏移, 计算出一个表征目标之间相互影响的矩阵, 随后利用该矩阵经过一个GCN和MLP来直接得到目标的预测位置(代替Kalman滤波).设计了一个恢复模块(Refined Module), 用来拼接碎片化的轨迹. 对于没有匹配成功的检测和丢失的轨迹, 计算他们之间的速度-时间关系, 并保留匹配程度高的组合.原创 2023-03-27 21:58:58 · 2859 阅读 · 5 评论 -
[论文阅读笔记21]Quo Vadis: Is Trajectory Forecasting the Key Towards Long-Term Multi-Object Tracking?
长时跟踪是一个经常被忽略的问题. 对于大于三秒钟的轨迹丢失, SOTA的跟踪器中只能恢复不到10%的轨迹. 轨迹丢失的时间越长, 其搜索空间(也就是之后可能的位置)就越大, 因此本文用轨迹预测的方式减少丢失轨迹的搜索空间, 提高精度.原创 2023-03-28 11:11:03 · 553 阅读 · 3 评论 -
[论文阅读笔记19]SiamMOT: Siamese Multi-Object Tracking
本文提出了一个孪生(Siamese)式的MOT网络, 该网络用来估计帧间目标的运动. 为了探究运动估计对多目标跟踪的影响, 本文提出了两种运动建模方式: 显式和隐式. 本文在一些数据集上取得了良好的结果.原创 2023-02-22 21:33:48 · 923 阅读 · 1 评论 -
[论文阅读笔记18] DiffusionDet论文笔记与代码解读
扩散模型近期在图像生成领域很火, 没想到很快就被用在了检测上. 打算对这篇论文做一个笔记.论文地址: 论文代码: 代码首先介绍什么是扩散模型. 我们考虑生成任务, 即encoder-decoder形式的模型, encoder提取输入的抽象信息, 并尝试在decoder中恢复出来. 扩散模型就是这一类中的方法, 其灵感由热力学而来, 基本做法是在输入中逐步加噪, 并学会如何在噪声中恢复出输入. 在加噪和去噪的过程中都假设为Markov过程.假定原始数据服从分布x0∼q(x)\textbf{x}_0\sim原创 2022-11-24 16:39:00 · 4307 阅读 · 10 评论 -
[论文阅读笔记17]MAT: Motion-Aware Multi-Object Tracking
MAT: Motion-Aware Multi-Object Tracking解读原创 2022-08-25 22:32:03 · 2035 阅读 · 0 评论 -
YOLO X, v7, v8 + 各种跟踪器(SORT, DeepSORT, ByteTrack, BoT-SORT)实现多目标跟踪
支持三种检测器(YOLOX,v7,v8)和7种跟踪器(SORT, DeepSORT, ByteTrack, BoT-SORT, etc.)实现任意数据集的多目标跟踪!模块化解耦设计,便于集成和修改!原创 2022-08-18 10:06:19 · 27202 阅读 · 198 评论 -
[论文阅读笔记16]BoT-SORT论文公式推导与代码解读
论文地址和OCSORT(解读见)一样,都是对Kalman滤波进行的改进.OCSORT是针对观测(检测器)不可靠时Kalman预测方差变大的问题,对轨迹做了平滑.而BoT-SORT是针对相机运动的问题,加入了相机运动补偿.也就是除了利用Kalman预测目标的新位置之外,还利用稀疏光流()...原创 2022-07-25 10:42:20 · 3746 阅读 · 6 评论 -
[论文阅读笔记15]GNN在多目标跟踪中的应用
GNN简单来讲, 旨在通过融合顶点和边的特征进而提取出图(Graph)中的信息. 一个直觉的想法是, 在MOT中, 我们可以用顶点表示目标的特征, 边表示目标之间的关系, 进而一个构成的图就可以作为解决关联问题的一个很好的入口, GNN就可以成为解决问题的工具.我想总结几篇经典的利用GNN做MOT的文献. 力争持续更新.解决Offline的MOT问题, 主流是依靠最小(大)流算法. 这篇文章本质上利用GNN来对最小流算法进行求解.摘要中说, MOT方法大家热衷于研究特征提取的策略, 然而本篇文章主要针对数据原创 2022-07-02 09:45:11 · 4496 阅读 · 1 评论 -
[论文阅读笔记14]Online MOT with Unsupervised Re-ID Learning and Occlusion Estimation
论文地址:论文之所以要做这篇文章的笔记, 是因为这篇是少有的专门针对遮挡情形的工作. 此外, 最近越来越多的算法利用自监督(无监督)的方式(本篇文章,以及Wang 等人的Multiple object tracking with correlation learning)或者对比学习(QDTrack)来对目标特征进行学习. 这种方式的好处是不需要像JDE或者FairMOT那样将特征学习转换为大量标签的分类问题. 因为数据集很大的话, 目标个数会非常多, 因此利用有限维数的向量来进行大数目的分类可能不会有很好原创 2022-06-20 23:16:33 · 920 阅读 · 0 评论 -
[多目标跟踪学习笔记]光流法, 运动重构与目标跟踪
光流法是进行目标跟踪的传统方法, 参照视频B站进行学习, 做的笔记.1. 运动场(Motion Field)与光流(Optical Flow)原创 2022-06-12 12:01:45 · 3297 阅读 · 0 评论 -
[论文阅读笔记13]Observation-Centric SORT(OCSORT)论文中的公式推导
这篇文章是我很喜欢的一篇文章, 尝试用更本质的方法优化Kalman滤波.1. 概述这篇文章解决的主要问题是,现有的方法对运动预测都是基于线性运动假设,对非线性运动、遮挡、低帧率视频就没有好的处理效果。作者说SORT有三个缺点:帧率很高的情况,目标位移的噪声可能就和位移大小本身差不多(因为位移会很小),这样Kalman的方差会很大。由于遮挡等原因,如果没有新的轨迹和检测匹配,那目标的噪声可能会积累。证明了误差积累关于时间是平方关系。Kalman主要依赖于状态估计,把观测只作为辅助信息。作者认.原创 2022-05-15 10:11:56 · 7698 阅读 · 17 评论 -
[论文阅读笔记12]MeMOT: Multi-Object Tracking with Memory, 有记忆的MOT算法
MeMOT是CVPR2022的文章, 最大的亮点是存储目标的之前所有帧的信息, 然后把之前所有帧的信息作为跟踪的线索进行编码, 从而实现同时检测与跟踪.这种方式看似比较暴力, 而且网络的三部分组成都是Transformer结构(但同样也是CNN提取特征). 然而结合之前所有帧信息的思想(也许是想从batch方式借鉴一些, 助力online方式)还是值得思考的.论文地址: 论文目前没开源。还是按文章顺序阅读.1. Introduction作者在引言里批评了近期关于Transformer的MOT.原创 2022-05-12 11:32:42 · 3971 阅读 · 4 评论 -
[MOT学习笔记]JDE损失函数详解
正好最近写论文,整理到JDE算法.JDE原论文中损失函数部分写的有些模糊.(一)损失函数与YOLO v3不同的是,JDE采用双阈值分割法判断目标为前景或背景。即如果目标和某真值框的IoU大于0.5,则认为匹配;若IoU小于0.4,则认为不匹配。经过实验,认为这种方式能够抑制虚警(FP)。对于前景和背景的分类损失Lα\mathcal{L}_{\alpha}Lα采用交叉熵损失,对于边界框的回归损失Lβ\mathcal{L}_{\beta}Lβ采用平滑L1损失,如式(4-1)、(4-2)所示。Lα(原创 2022-05-02 11:29:43 · 831 阅读 · 2 评论 -
Swin Transformer作为骨干网络的JDE(VisDrone2019-MOT数据集)
这一阵子的一个小工作:把JDE的骨干网络换成了Swin-T,在VisDrone2019-MOT数据集上训练,的确得到了比DarkNet53作为骨干网络更好的效果:IDF1RecallPrecisionFPFNMOTAMOTPJDE(with DarkNet53 backbone)45.048.791.457776467242.40.235JDE(with Swin-T backbone)48.254.688.787845720245.90.原创 2022-04-27 17:07:46 · 2046 阅读 · 22 评论 -
[论文阅读笔记11]Swin-Transformer
0. 前言Swin Transformer, 即Shift Window Transformer, 它旨在让Transformer结构跟CNN一样, 也可以作为骨干网络在各种计算机视觉任务中来使用, 以及解决ViT计算复杂度高的问题.具体地, 在CNN网络中, 大多都是层级结构. 比如说, 每一层都让高宽减半, 通道数增加. 这样在每一层都具有不同的感受野, 进而获得不同尺度的语义信息. 那么Transformer结构可不可以也这么做呢? Swin-Transformer就是这样一个工作.1. Swi原创 2022-04-05 21:40:24 · 3700 阅读 · 0 评论 -
论文阅读笔记10-MOT by associating Every Detection Box(ByteTrack)
代码地址 ByteTrack0.前言和算法解读ByteTrack本质上是利用多次匹配进而提高跟踪准确度的一种方法. 对于大多数MOT方法, 匹配过程是:1.根据检测进行筛选, 低置信度的bbox就舍弃了.2.利用Kalman滤波等方式来预测轨迹, 并将轨迹和筛选的bbox进行匹配(通常是匈牙利算法, KM算法或贪心算法)3.对于没有匹配到的轨迹, 设置一个patience time, 超过这个时间就认为离开画面. 如果在这个时间内还可以和新检测匹配上, 就恢复轨迹, 也就是Re-ID.4.对原创 2022-03-13 16:13:24 · 5853 阅读 · 0 评论 -
论文阅读笔记8——Track to Detect and Segment:An Online Multi-Object Tracker(TraDeS)
前言:前段时间读了一些基于Transformer的方法,和它们一样,TraDeS同样也是端到端的方式,主要基于DCN和CenterNet,它最大的亮点是用跟踪结果来辅助检测,进而在困难场景下有更好的表现。而且TraDeS可以解决2D、3D和分割的问题。论文: 论文0.Abstract前面提到,TraDeS仍然是联合检测跟踪(Joint detection and tracking,JDT)的模型,它利用跟踪的线索来辅助检测。它利用cost volume来预测跟踪偏移,这个跟踪偏移也被用来传播之前.原创 2021-12-08 10:12:01 · 1161 阅读 · 0 评论 -
SIFT(尺度不变特征变换)笔记
对《数字图像处理》11.7节SIFT的总结。可能的应用场景:对于无人机拍摄角度变化问题,有可能需要SIFT来增加鲁棒性。0.前言尺度变换之所以被称为一个变换(Transform),是因为它将图像变换为相对于局部图像特征的尺度不变坐标。SIFT特征(关键点)对图像尺度和旋转是不变的,对仿射失真、三维视点变化、噪声和光照变化具有很强的鲁棒性。 \space 1.尺度空间尺度空间的本质就是一种多尺度表示,以一致的方式处理不同尺度的图像结构。灰度图像f(x,y)f(x,y)f(.原创 2021-11-30 15:51:31 · 2137 阅读 · 0 评论 -
【多目标跟踪学习笔记】基于Transformer的MOT算法对比(TransTrack、TrackFormer、TransCenter、TransMOT、MOTR)
最近看了一些基于Transformer的MOT方法,在此进行一下总结。总共看了题目的五个方法,这些方法发表时间顺序为:TransTrack(20.12)------TrackFormer(21.1)-----TransCenter(21.3)-----TransMOT(21.4)-----MOTR(21.5)这五个方法并不都相似,可分为三类:TransMOT单独一类,因为它用的是graph transformer。TransCenter也是单独一类,因为其用的是中心点(学习热度图),而不是bbox。两.原创 2021-11-19 16:43:58 · 10563 阅读 · 28 评论 -
论文阅读笔记7——TransMOT: Spatial-Temporal Graph Transformer for MOT
论文:原文没代码,离谱被Graph transformer吸引,看看什么叫图transformer。0.AbstractTransMOT有效地对大数量的目标之间的关系进行了建模。它通过将已跟踪的目标作为稀疏带权图的集合来安排轨迹,并且构建一个空间的graph transformer的Encoder层,一个时域的graph transformer的Encoder层,一个空间的graph transformer的Decoder层。为了提高精确度,提出了一个级联的关联结构,来处理低置信度的检测和长期.原创 2021-11-17 16:25:50 · 3252 阅读 · 7 评论 -
论文阅读笔记6——FairMOT:On the Fairness of Detection and Re-identification in MOT
这篇文章很好,打算精读。原文:原文代码:代码 \space 0.Abstract传统的MOT方法是将目标探测和重识别分开。但是作者发现两个任务会倾向于相互竞争,这是需要谨慎处理的问题。尤其是检测精度会极大地影响重识别的任务.因此之前的方法偏向于检测任务,这对于重识别不公平,也就是二者不对等。作者基于无锚的CenterNet提出了FairMOT,但是并不是CenterNet和re-ID的简单结合,而是设计了很多细节,达到了很好的效果。 \space .原创 2021-11-13 10:34:43 · 4126 阅读 · 0 评论 -
论文阅读笔记5——TransCenter: Transformers with dense queries for MOT
原论文:论文代码:代码 \space 0. AbstractTransformer自提出以后,在CV领域也得到了大量的应用。但是MOT和transformer还是有某种程度上的不兼容。作者认为边界框和稀疏查询这种标准的表示方式对于transformer并不是最优解。因此作者提出了TransCenter:它是第一个预测目标热力图的基于transformer的MOT架构。TransCenter利用密集像素级的多尺度查询(densepixel-level multi-scale qu原创 2021-11-10 16:30:10 · 3903 阅读 · 7 评论 -
论文阅读笔记4——MOTR: End-to-End Multiple-Object Tracking with TRansformer(利用Transformer进行多目标跟踪)
首个完全基于端到端 Transformer 的多目标追踪模型,21年5月上传到arxiv上。代码:代码 \space 1. Abstract摘要大概由两部分组成,一是过去启发式算法的缺陷,二是MOTR的基本思路。他说MOT问题的关键在于时序上的建模。过去的空间和外观相似度的这种启发式算法虽然简单,但是缺乏学习时序上上的变化。MOTR的基本思路是利用一个叫 “track query” 的东西,每个track query对一个object的整个track建模,它以逐帧的方式去传输原创 2021-11-07 16:13:33 · 3939 阅读 · 3 评论 -
【机器学习杂记】循环神经网络和长短时记忆网络(RNN & LSTM)
零 前言觉得害得补补RNN的知识,虽然好像有人说transformer把RNN替代了。原创 2021-10-30 20:50:26 · 618 阅读 · 0 评论 -
【机器学习杂记】Transformer
零 前言Transformer考虑之前提到的seq2seq问题:输出长度未知。Seq2Seq的基本模型如下:下面逐块解释。先说模型的大体框架是什么,然后再说Transformer当中是怎么做的。 \space 一 EncoderEncoder的任务就是输入一排向量,输出同等数量的向量。完成这个任务可以用Self-attention、CNN、RNN等。Encoder的框图如下: \space 可以看到,输入向量经过很多个Block再输出同等数量的向原创 2021-10-26 15:15:39 · 403 阅读 · 0 评论 -
【机器学习杂记】自注意力机制(Self-attention)
初学self-attention,是学习笔记,基于李宏毅老师的课程。有缘人看到的话若有错误的不完善的地方还请指出,不胜感激! \space 零 引出有时候我们的模型具有复杂的输入,例如不定长的向量集合。例如语音识别、机器翻译等任务,其输入是不定长的。在这种应用背景下,输出有两种:一是每个输入向量都有一个对应的输出,例如词性判(POStagging);对于一个graph,决定每个节点的特性(例如根据一个社交网络做个性化推荐)二是一整个输入的sequence只对应一个输出的l原创 2021-10-25 16:43:03 · 1046 阅读 · 0 评论 -
论文阅读笔记3——SORT with a deep association metric(多目标跟踪经典算法:deepSORT)
零 前言论文地址:原文代码地址:代码 \space 一 各部分笔记原创 2021-10-24 16:24:58 · 778 阅读 · 0 评论 -
【多目标跟踪学习笔记】2.匈牙利算法和KM算法(Hungarian algorithm and Kuhn–Munkres algorithm)
\space原创 2021-10-23 11:28:35 · 1424 阅读 · 0 评论 -
论文阅读笔记2——Simple Online and Realtime Tracking(多目标跟踪经典算法:SORT)
零 前言原论文地址:原文今天开始学习多目标跟踪里的经典算法。一 各部分笔记原创 2021-10-22 20:55:44 · 640 阅读 · 0 评论