小迷糊~666-CSDN博客

原创 MixFormer:End-to-End Tracking with Iterative Mixed Attention论文笔记

为了简化这一流程，文章提出了一个基于transformer的跟踪框架，将特征提取和目标信息融合整合到了一块，即MixFormer，核心就是提出MAM（混合注意力模块），用来同时提取特征以及目标信息融合，Mixformer也就是堆叠多个MAM，最后再加个定制化头所构成。由两个注意力块和一个三层感知器组成，首先，可学习分数token用作参与搜索ROI token的查询，接着得分token关注初始目标token的所有位置，将挖掘的目标与第一目标进行比较，最后通过MLP层和sigmoid激活生成最后得分结果。

2023-09-04 17:42:51 115 1

原创数据集之单目标跟踪学习笔记

(Online Object Tracking Benckmark)，它是一个经典的目标跟踪数据集，包含了100个视频序列，涵盖了各种场景和挑战性的情况，有很多个评价指标，比如：APE、AOR。AUC：指的是ROC曲线下的面积，使用AUC作为评价指标是因为在某些情况ROC曲线并不能清晰的说明哪个分类器好，而AUC是一个数值，值越大，分类器效果越好；是一个针对视觉目标跟踪的挑战性数据集，包含了多个视频序列，并提供了丰富的挑战性标注，如目标尺度变化、遮挡、快速运动等，主要的评价指标有A、R、EAO、EFO。

2023-07-24 20:22:54 734

原创 DropMAE: Masked Autoencoders with Spatial-Attention Dropout for Tracking Tasks论文笔记

使用最先进地跟踪器OSTrack作为基线跟踪器进行微调，在微调阶段，使用预先训练的DropMAE编码器权重来初始化OSTrack中使用的ViT主干，同时，在模板嵌入和搜索嵌入中分别添加了两个帧身份嵌入，来保持与预训练阶段的一致性，使用的损失与原始OSTrack的训练损失相同。1）首个研究基于时间匹配的下游任务的掩码自编码器视频预训练，具体而言，就是探索了用于预训练的各种视频数据源，并且建立了一个TwinMAE基准用来研究它在时间匹配任务上的有效性，构建了一个基于ViT的VOS基线进行微调；

2023-07-19 19:37:07 394

原创 Autoregressive Visual Tracking论文笔记

这也就意味着网络在当前帧输出的目标坐标是相对于搜索区域而言的，要想获得一个统一的表示，就有必要将不同帧的框映射到相同坐标系当中。模板和搜索图像先被切割成块，然后展平并投影以生成token embeddings序列，接着，添加带有位置和身份嵌入的模板和搜索tokens，将它们连接并输入到普通的ViT主干中，进而对视觉特征进行编码。其中，时空prompts为先前的输出结果。词汇的表示范围：词汇的表示范围依据搜索区域的尺寸所设置，但由于物体的快速移动，先前的轨迹序列有时可能延伸到搜索区域的边界之外。

2023-07-18 22:07:12 679

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

原创 MixFormer:End-to-End Tracking with Iterative Mixed Attention论文笔记

原创 数据集之单目标跟踪学习笔记

原创 DropMAE: Masked Autoencoders with Spatial-Attention Dropout for Tracking Tasks论文笔记

原创 Autoregressive Visual Tracking论文笔记

空空如也

空空如也

原创数据集之单目标跟踪学习笔记