DRT： Detection Refinement for Multiple Object Tracking 论文阅读

最新推荐文章于 2024-09-17 14:59:25 发布

唢圣小六

最新推荐文章于 2024-09-17 14:59:25 发布

阅读量182

点赞数

文章标签：论文阅读深度学习计算机视觉

本文链接：https://blog.csdn.net/weixin_45429415/article/details/129748230

版权

基于LSTM构建运动模型的一篇文章

创新点：1.基于半监督热图训练主干网络

2.使用"one patch, multiple predictions"机制细化检测结果

3.使用LSTM构建运动模型（预测模型）

pipline：

具体LSTM的构建方法

LSTM输入向量为

网络通过一个线性层输入8D状态向量，然后是一个LSTM单元，最后是两个线性输出层，预测下一帧的位置和边界框大小

训练的trick：作者认为，完全使用带标签数据进行训练不利于长时序列建模，作者采取了一种动态调整的方式，设置一个参数p，p ( i )表示从第i个epoch的真值数据中采样输入的概率，1-p(i)表示从第i-1个epoch的预测数据中采样输入的概率。

将p初始化为一个较大的概率，通过公式来衰减

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

唢圣小六

关注关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

多目标跟踪竞赛结果摘要：Multiple Object Tracking Challenge 2017 Results

哈哈哈哈嘿嘿嘿

11-30

8267

MOT17 第一名：A Novel Multi-Detector Fusion Framework for Multi-Object Tracking 第二名：A multi-cut formulation for joint segmentation and tracking of multiple objects 速度最快： High-Speed Tracking-by-Detection Without Using Image Information

SegFormer论文记录（详细翻译）

qq_39333636的博客

04-22

1万+

SegFormer论文详解，2021CVPR收录，将Transformer与语义分割相结合的作品，动机来源于SETR中使用VIT作为backbone提取特征较为单一，传统CNN的Decoder来恢复特征。主要提出多层次的Transformer-Encoder和MLP-Decoder，性能达到SOTA。记录阅读文章情况，如有误，欢迎指出。...

1 条评论您还未登录，请先登录后发表或查看评论

2022CVPR目标跟踪最新论文

qq_39821101的博客

05-03

5287

【MOT】《Multiple Object Tracking in Recent Times: A Literature Review》

bryant_meng

07-10

1028

原文参考文章。

多目标追踪-2019综述《Deep Learning in Video Multi-Object Tracking: A Survey》

qq_41614538的博客

12-02

6422

Deep Learning in Video Multi-Object Tracking: A Survey 近期开始研究多目标追踪，因此先找了一篇比较新的2019年综述性论文入门。本论文将MOT通用算法归纳为4个步骤，并分别介绍了Deep Learning在各步骤中的应用，给出了典型论文以供读者进一步阅读学习。文章目录1 Introduction2 MOT: algorithms, me...

点云 3D 目标检测 - CenterPoint：Center-based 3D Object Detection and Tracking（CVPR 2021）

77wpa的博客

03-08

6194

三维目标通常表示为点云中的三维长方体。这种表示模拟了经过充分研究的基于图像的2D边界框检测，但存在额外的挑战。三维世界中的目标不遵循任何特定的方向，基于框的检测器很难枚举所有方向或将轴对齐的边界框拟合到旋转的目标。在本文中，我们建议将3D目标表示、检测和跟踪为点。我们的框架CenterPoint首先使用关键点检测器检测目标的中心，然后回归到其他属性，包括3D大小、3D方向和速度。在第二阶段，它使用目标上的其他点特征来细化这些估计。在CenterPoint中，3D目标跟踪简化为贪婪的最近点匹配。

多目标跟踪MOT论文阅读记录2（持续更新中...）

weixin_44283270的博客

08-15

1148

一共三层：D(high)+T(high)，D(high)+T(high+low)，D(high+low)+T(high+low)；TBM的方法适合固定相机场景，因此TBM+TBD的也比较适合相机运动不大的场景。：基于跟踪基数和运动上下文相似性（IOU），相似性低，则生成TBD伪标签，相似性高则TBM伪标签。和当前帧的不相似性及注意力机制，决策出当前帧是使用TBM还是TBD；TBM速度快，TBD精度高，为了平衡精度，交替使用TBM和TBD。，以更新kalman，也就是令更新公式里的。

Object Detection

东南风的博客

05-07

916

Object Detection------------------------------------update: 2018.5.07 Mon-------------------------------------PapersR-CNNFast R-CNNFaster R-CNNLight-Head R-CNNCascade R-CNNMultiBoxSPP-NetMR-CNNYOLOYOL...

Object Detection in 20 Years: A Survey 20年间的目标检测：综述

学习日常分享

05-16

5926

摘要物体检测作为计算机视觉中最基本和最具挑战性的问题之一，近年来受到了极大的关注。它在过去二十年中的发展可以看作是计算机视觉历史的缩影。如果我们把今天的物体探测看成是深度学习力量下的技术美学，那么把时钟拨回到20年前，我们就见证了冷武器时代的智慧。本文根据其技术演变（从1990年代到2019年）广泛回顾了400多篇关于物体检测的论文。本文涵盖了许多主题，包括历史上的里程碑探测器，检测数据集，指标，检测系统的基本构建块，加速技术以及最近的最先进的检测方法。本文还综述了行人检测、人脸检测、文本检测等一些重要的

笔记：PoseCNN:A Convolutional Neural Network for 6D Object Pose Estimation in Cluttered Scenes

kadima_WEI的博客

12-23

879

一种新的用于6D物体姿态估计的卷积神经网络PoseCNN

基于视觉的机器人抓取: 论文及代码(Vision-based Robotic Grasping: Papers and Codes)

热门推荐

dsoftware的博客

10-22

2万+

计算机视觉论文总结系列（一）：目标检测篇

专注大数据与人工智能技术分享，欢迎私信加群互相学习！

03-23

8348

本系列主要面向计算机视觉目标检测、图像分割及OCR等领域，每篇将对该领域论文等方面展开介绍，本篇主要介绍目标检测领域历年论文，希望大家能够多多交流如有错误请大家在评论区指正，如有侵权联系删除

CVPR 2021最全论文开放下载！附pdf下载链接！

中科院AI算法工程师的博客

06-18

1万+

CVPR 2021最全论文开放，附所有pdf下载链接！

论文阅读：3D Gaussian Splatting for Real-Time Radiance Field Rendering

qq_53589322的博客

09-11

1259

本工作首先基于SFM的点云设计了能快速精确表达场景的3D高斯函数，并以此开发了可由CUDA加速的渲染算法，实现了辐射场的实时渲染。本论文的核心在于3D高斯函数的场景表达方式以及快速渲染的方法。该方法整体如下图所示：首先从SFM得到的稀疏点云构建三维高斯函数，在训练过程中通过可微的快速渲染器对3D高斯函数的属性进行优化，并交替进行自适应密度控制。提出一个实时且能够高质量渲染场景的方法，通过结合离散和连续表示方法的优势，不仅克服了传统方法在噪声和渲染质量方面的限制，而且极大地提高了渲染速度。

【论文笔记】AutoLFADS (Nature Methods, 2022)

Jurio的博客

09-11

1477

通过深度神经群体动力学模型实现最先进的性能需要对每个数据集进行广泛的超参数调整。 **AutoLFADS 是一个模型调整框架，可以根据来自各种大脑区域和任务的数据自动生成高性能的自动编码模型，而无需行为或任务信息**。作者在几个恒河猴数据集上证明了其广泛的适用性。

GPT-4论文阅读

weixin_52185313的博客

09-11

1395

本篇虽然是GPT-4的技术报告，但其中没有提到GPT-4的具体模型架构与训练过程，主要就是讲他的结果。GPT-4是一个多模态的模型，能够接受文本或者是图片的输入，最后输出纯文本GPT-4基本能够达到类人的表现，在事实性、可控性和安全性上有了很大的进步GPT-4在真实世界中与人还是存在差距，但是在很多具有专业性或者学术性的数据集或者任务上面上，GPT-4有时候能够达到甚至超过人类的水平。

clip论文阅读（Learning Transferable Visual Models From Natural Language Supervision）

weixin_47696370的博客

09-14

666

clip

论文笔记：交替单模态适应的多模态表征学习