论文
文章平均质量分 94
记录论文及代码复现的细节。
changgge
这个作者很懒,什么都没留下…
展开
-
DeFCN:End-to-End Object Detection with Fully Convolutional Network论文译解
poto,Defcn,3dmax原创 2023-02-28 23:05:16 · 443 阅读 · 0 评论 -
Visual Prompt Multi-Modal Tracking阅读笔记
可见模态对象跟踪产生了一系列下游多模态跟踪支流。为了继承基础模型的强大表示,多模态跟踪的自然操作方法是对基于 RGB 的参数进行全面微调。尽管有效,但由于下游数据稀缺和可迁移性差等原因,这种方式并不是最优的。在本文中,受最近语言模型提示学习成功的启发,我们开发了视觉提示多模态跟踪(ViPT), 它学习模态相关的提示,使冻结的预训练基础模型适应各种下游多模态跟踪任务。ViPT 找到了一种更好的方法来激发大规模预训练的基于 RGB 的模型的知识,同时只引入一些可训练的参数(不到模型参数的 1%)。原创 2023-05-02 21:07:05 · 1253 阅读 · 8 评论 -
E.T.Track: Efficient Visual Tracking with Exemplar Transformers论文译解
更复杂和强大的神经网络模型的设计显着推进了视觉目标跟踪的最新技术水平。这些进步可归因于更深层次的网络,或引入新的构建块,例如Transformer。然而,在追求提高跟踪性能的过程中,运行时间常常受到阻碍。此外,高效的跟踪架构很少受到关注。在本文中,我们介绍了 Exemplar Transformer,这是一种利用单个实例级注意层进行实时视觉对象跟踪的转换器模块。我们的视觉跟踪器 E.T.Track 包含 Exemplar Transformer 模块,在 CPU 上以 47 FPS 的速度运行。原创 2023-03-12 12:36:30 · 925 阅读 · 0 评论 -
Transformer原理解析
decoder会接收encoder输出的信息,在得到START指令之后,开始对input进行decode处理,然后将第一个输出作为输入并结合input得到第二个输出,如此循环往复。masked self-attention:在decoder中,当前位置的输出只考虑当前位置及以前的输入,而后面的输入不用考虑。在数据量比较少的时候,CNN会更有优势,但是数据量比较充足的时候,self-attention会占优势。而self-attention的感受野是其自行学到的。作用:输入一个seq,输出一个seq。原创 2023-03-08 21:42:30 · 225 阅读 · 0 评论 -
FCOS: Fully Convolutional One-Stage Object Detection论文译解+代码调试记录
FPN被用于解决多目标重叠问题。原创 2023-03-06 15:30:29 · 121 阅读 · 0 评论 -
Ocean: Object-aware Anchor-free Tracking论文译解+代码复现问题记录
ocean代码复现。原创 2023-02-28 20:05:44 · 1328 阅读 · 0 评论