自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(92)
  • 资源 (2)
  • 收藏
  • 关注

原创 [论文阅读笔记33] Matching Anything by Segmenting Anything (CVPR2024 highlight)

MOT的本质是在帧间进行同一个目标的稳定关联。现有的MOT主要依赖于特定domain的数据集(比如行人MOT challenge,车辆VisDrone等),限制了cross domain的泛化性。针对这个问题,作者提出了MASA,可以实现在任意域中跟踪任意目标。具体来说,利用SAM能够给出的丰富的目标分割,MASA的任务就是通过data augmentation学习一个instance level的对应。

2024-06-27 16:40:55 1328 1

原创 [论文阅读笔记32] Object-Centric Multiple Object Tracking (ICCV2023)

无监督的object-centric learning(OCL)可以将场景划分为多个object,而无需进行先验的定位(例如pretrain的detector)。这正好可以解决MOT标注信息繁多、困难的问题。空间上,OCL没有正确认识整个物体的语义信息,导致物体往往被划分成了很多parts时间上,OCL也无法准确地维护帧间连续性。

2024-06-22 17:09:06 998

原创 [论文阅读笔记31]Mamba (Selective Structured State Space Model) 及其应用

现有的基础模型都是以Transformer结构作为核心组建的。然而,Transformer中的注意力是二次方的复杂度,为了降低这个复杂度,一些线性注意力、门控卷积(gated convolution)和循环网络,以及状态空间模型(structured state space models,SSM)被提出,然而它们在一些重要的模态,例如语言中的性能并没有达到和Transformer中attention相媲美的程度。

2024-05-26 18:57:33 1851

原创 [InternLM训练营第二期笔记]7. OpenCompass 大模型评测实战

该系列是上海AI Lab举行的书生 浦语大模型训练营的相关笔记部分。该笔记是第七节课,学习大语言模型评测的基本概念,以及评测系统OpenCompass的使用。

2024-04-25 17:18:49 343

原创 [InternLM训练营第二期笔记]6.Lagent & AgentLego 智能体应用搭建

继承 BaseTool 类修改 default_desc 属性(工具功能描述)如有需要,重载 setup 方法(重型模块延迟加载)重载 apply 方法(工具功能实现)下面我们实现一个调用 MagicMaker 的 API 以实现图像生成的工具。class MagicMakerImageGeneration(BaseTool): # 第一步 继承BaseTool类。

2024-04-25 14:10:35 800

原创 [InternLM训练营第二期笔记]5. LMDeploy 量化部署 LLM 实践

KV Cache是一种缓存技术,通过存储键值对的形式来复用计算结果,以达到提高性能和降低内存消耗的目的。在大规模训练和推理中,KV Cache可以显著减少重复计算量,从而提升模型的推理速度。理想情况下,KV Cache全部存储于显存,以加快访存速度。当显存空间不足时,也可以将KV Cache放在内存,通过缓存管理器控制将当前需要使用的数据放入显存。模型在运行时,占用的显存可大致分为三部分:模型参数本身占用的显存、KV Cache占用的显存,以及中间运算结果占用的显存。

2024-04-24 23:31:24 947

原创 [InternLM训练营第二期笔记]4. XTuner 微调 LLM:1.8B、多模态、Agent

微调的目的是为了让foundation模型在特定的领域更好地发挥作用。增量预训练与指令跟随。其中,增量预训练的意思是继续训练,加入领域内的一些特定的知识。这个过程是无监督的,不需要人为制造高质量对话。而指令跟随微调,是让模型学会对话模板,因此是有监督的,数据是高质量的问答数据。

2024-04-20 15:42:30 914

原创 [InternLM训练营第二期笔记]3. “茴香豆“:零代码搭建你的 RAG 智能助理

该系列是上海AI Lab举行的书生 浦语大模型训练营的相关笔记部分。该笔记是第三节课,学习RAG的基本概念,以及对于开源RAG应用“茴香豆”进行部署。

2024-04-10 21:48:39 1122

原创 [论文阅读笔记30] (AAAI2024) UCMCTrack: Multi-Object Tracking with Uniform CMC 详细推导

在多目标跟踪中,相机不规则运动一直是一个难题,这是因为相机的快速运动会导致目标在画面中的位置发生突变,这样就很难再和过去的轨迹关联起来。一种办法是采用相机运动补偿(Camera Motion Compensation)方法,但是现有的利用CMC的方法速度都是比较慢的。为了解决这个问题,作者提出了一种新的Kalman Filter的方式,即将目标的运动状态与地面联系起来(地面就是画面中真实的地面,我认为这才是这篇论文核心的contribution。

2024-04-08 23:20:47 1408 7

原创 [InternLM训练营第二期笔记]2. 轻松分钟玩转书生·浦语大模型趣味 Demo

该系列是上海AI Lab举行的书生 浦语大模型训练营的相关笔记部分。该笔记是第二节课,完成对话、多模态等demo,形成对InternLM的初步了解。

2024-04-04 09:45:34 858

原创 [InternLM训练营第二期笔记]1. 书生·浦语大模型全链路开源开放体系

当前,人工智能的发展趋势是从专用模型到通用模型迈进。专用模型往往是解决一个特定的问题,而通用模型可以结合多种模态,完成多种任务。当前,InternLM模型已经完成了多轮的迭代,并在今年的1月,正式升级成为InternLM2:InternLM2目前已经开源了7B和20B的两个规格,而每个规格包含了三种模型的版本。InternLM2-Base相当于一个模型基准,通过对Base在各个方向上进行强化,就得到了InternLM。在Base的基础上,经过SFT(

2024-03-30 17:26:13 1037

原创 [杂记]mmdetection3.x中的数据流与基本流程详解(数据集读取, 数据增强, 训练)

之前跑了一下mmdetection 3.x自带的一些算法, 但是具体的代码细节总是看了就忘, 所以想做一些笔记, 方便初学者参考. 其实比较不能忍的是, 官网的文档还是空的…这次想写其中的数据流是如何运作的, 包括从读取数据集的样本与真值, 到数据增强, 再到模型的forward当中.

2024-02-19 22:21:02 1298

原创 [论文阅读笔记29]MOT+CLIP: Generalizing MOT to Unseen Domains by Introducing NL Presentation

继CLIP大火之后, 许多基于CLIP的工作都应用在各种各样的视觉下游任务中, 例如检测, 分割, 风格迁移, 视频动作识别, 视频文本检索等等. 跟踪也不例外, 今天想对这篇文章做一个笔记, 据我所知应该是第一篇将MOT与CLIP结合的文章, 用以通过对目标更高阶的信息表示(也就是自然语言表示)来解决域适应的问题(因为如果将一个目标描述为"穿着红衣服的人", 那么这种目标不论在哪个数据集中都具有相似的特征).论文: Generalizing multiple object tracking to unse

2024-02-05 10:57:58 1069 8

原创 [论文阅读笔记28] 对比学习在多目标跟踪中的应用

对于预测的一个边界框, 如果它和某个真值的IoU大于。

2023-12-24 21:46:44 1440

原创 [论文阅读笔记27]Occlusion-Aware Detection and Re-ID Calibrated Network for Multi-Object Tracking

在MOT任务中, 遮挡一直是一个有挑战性的问题. 遮挡不仅会降低检测效果, 导致轨迹碎片化, 还会影响Re-ID的精度. 为此, 我们提出了ORCTrack解决遮挡问题. 具体地, 我们提出了一个关注遮挡的注意力模块(Occlusion-Aware Attention Module), 这个模块的目标是突出目标特征, 抑制背景特征, 进而提升检测器对潜在被遮挡目标的精度. 此外, 我们还设计了基于最优传输的Re-ID特征匹配模块, 目的是利用帧间的互补性对Re-ID特征进行增强和校准.

2023-10-05 10:54:06 852 2

原创 [论文阅读笔记26]Tracking Everything Everywhere All at Once

传统的光流或者粒子视频跟踪方法都是用有限的时间窗口去解决的, 所以他们并不能很好的应对长时遮挡, 也不能保持估计的轨迹的全局连续性. 为此, 我们提出了一个完整的, 全局的。

2023-08-26 17:36:16 3680 2

原创 [论文阅读笔记25]A Comprehensive Survey on Graph Neural Networks

对于图像数据来说, CNN具有平移不变性和局部连接性, 因此可以在欧氏空间上良好地学习. 然而, 对于具有图结构的数据(例如社交网络 化学分子等)就需要用GNN来学习.最早期的GNN网络是遵循类似RNN的循环迭代式的(RecGNN), 主要的对象是DAG(有向无环图). 这个方式停止的条件是节点的表示趋于稳定.

2023-08-26 09:23:49 1251

原创 [论文阅读笔记24]Social-STGCNN: A Social Spatio-Temporal GCNN for Human Traj. Pred.

行人轨迹预测是一个比较有挑战性的任务, 有着许多的应用. 一个行人的轨迹不仅是由自己决定的, 而且受其周围目标的影响. 过去的方法都是学习每个行人自己的运动状态, 然而本文的方法是用一个GNN对整个场景的行人之间的interaction进行建模. 本文提出的方法叫Social-STGCNN, 是在STGCNN(一个基于骨架的action recognization的方法) 的基础上拓展到轨迹预测任务中的.

2023-07-24 21:00:41 1817 1

原创 [论文阅读笔记23]Adaptive Sparse Convolutional Networks with Global Context Enhancement for ... on drone

题目当中有三个关键词, 对应了本篇文章的三个关键点: Adaptive, Global和Faster. 作者针对小目标检测的稀疏卷积的问题, 做出了两个改进: 自适应mask比例, 和上下文增强.第一句: 背景+意义. 强调UAV下的目标检测很重要, 速度也很重要.第二句: 引出本篇论文的研究对象, 即稀疏卷积. 稀疏卷积可以平衡精度与速度.第三句小目标情况下上下文信息的不充分+不同尺度下mask比例难以控制.第四句本文propose了什么, 针对问题1是如何做的, 问题2是如何做的。

2023-07-20 10:47:57 1290 11

原创 用TrackEval评测自己的数据集

跑通代码最重要的就是路径问题, 为此我写了两个config模板, 让配置路径更简单.

2023-04-13 11:19:36 2446 20

原创 [论文阅读笔记22]Identity-Quantity Harmonic Multi-Object Tracking

通常的MOT算法在匹配阶段时, 都是通过线性指派问题求解, 即会计算一个代价矩阵, 例如代价矩阵的行表示轨迹, 列表示检测, 元素代表轨迹与检测之间的相似度. 往往是通过匈牙利算法等求解出代价矩阵的最佳匹配. 但是这都基于一个前提, 即对于代价矩阵C∈Rm×nC∈Rm×n的匹配结果A∈01m×nA∈01m×n, 满足∑i1nAki1∀k1m∑i1mAik1∀k1ni1∑n​Aki1∀k。

2023-04-09 12:41:35 807

原创 [论文阅读笔记21]Quo Vadis: Is Trajectory Forecasting the Key Towards Long-Term Multi-Object Tracking?

长时跟踪是一个经常被忽略的问题. 对于大于三秒钟的轨迹丢失, SOTA的跟踪器中只能恢复不到10%的轨迹. 轨迹丢失的时间越长, 其搜索空间(也就是之后可能的位置)就越大, 因此本文用轨迹预测的方式减少丢失轨迹的搜索空间, 提高精度.

2023-03-28 11:11:03 557 3

原创 [论文阅读笔记20]MotionTrack: Learning Robust Short-term and Long-term Motions for Multi-Object Tracking

这篇文章着力于解决长时设计了一个交互模块(Interaction Module), 来学习短轨迹之间的相互作用. 简单来说, 就是根据目标相邻两帧的的偏移, 计算出一个表征目标之间相互影响的矩阵, 随后利用该矩阵经过一个GCN和MLP来直接得到目标的预测位置(代替Kalman滤波).设计了一个恢复模块(Refined Module), 用来拼接碎片化的轨迹. 对于没有匹配成功的检测和丢失的轨迹, 计算他们之间的速度-时间关系, 并保留匹配程度高的组合.

2023-03-27 21:58:58 2875 5

原创 [论文阅读笔记19]SiamMOT: Siamese Multi-Object Tracking

本文提出了一个孪生(Siamese)式的MOT网络, 该网络用来估计帧间目标的运动. 为了探究运动估计对多目标跟踪的影响, 本文提出了两种运动建模方式: 显式和隐式. 本文在一些数据集上取得了良好的结果.

2023-02-22 21:33:48 926 1

原创 [杂记]算法:前缀和与差分数组

这样, 如果我们要计算。

2023-01-16 17:52:46 750

原创 [杂记]算法: 并查集

我们考虑如何计算一个图连通分量的个数. 假定简单无向图G有两个连通分量(子图)G1​G2​, 如下图所示:一个很自然的想法是, 要想求连通分量个数, 我们可以使用Full-DFS算法, 也就是我们从某个点开始深度优先搜索, 并标记访问过的元素. 随后挨个顶点判断, 如果某个点没有被访问过, 则接着从该点进行深度优先搜索,除此之外, 我们还可以用并查集来求图中连通分量的个数. 并查集, 顾名思义, 有并与查两部分.

2023-01-13 10:23:56 587

原创 踩坑记录2——RK3588跑通YOLO v5+DeepSORT

上篇说到RK3588编译OpenCV, 这篇记录一下跑通YOLO v5+DeepSORT的愉(chi)快(shi)历程.

2022-12-29 09:53:50 5242 23

原创 [翻译+笔记]变分自编码器:从AutoEncoder到Beta-VAE

自编码器是用来重构高维数据的,它利用一个有bottleneck层的神经网络。bottleneck层获取压缩的潜在编码,这样将嵌入向量以低维表示可以应用在许多地方,例如搜索,数据压缩,或揭示数据潜在的生成因素。记号意义DD数据集 大小为nx(i)x^{(i)}x(i)数据集中的样本,维数为dxxx数据集中的样本x′x'x′xxx的重建版本x~\tilde{x}x~xxx经噪声腐蚀的版本zzzbottleneck学习到的压缩编码aj(l)a_j^{(l)}a。

2022-12-24 11:02:34 1166

原创 [翻译+笔记]生成对抗网络: 从GAN到WGAN

最近读了一篇社会力模型的论文, 里面用到了GAN, 发现自己不是很懂. 想翻译一下一个大神的博客, 做一下笔记. 并不是全文翻译, 只翻译一部分.原文地址: from GAN to WGAN在介绍GAN之前, 首先复习一下衡量两个概率分布相似度的两种指标.(1) K-L散度: KL散度衡量了某个概率分布ppp是取自(发散自, 来自)另一个期望的(理论的)概率分布qqq的程度:DKL(p∣∣q)=∫xp(x)log⁡p(x)q(x)dxD_{KL}(p||q)=\int_xp(x)\log{\frac{p(x

2022-12-21 16:50:44 635

原创 踩坑记录1——RK3588编译OpenCV

这两天有在板卡上跑代码的需求,拿到了一块RK3588CPU的板子,型号是HINLINK的HK88.以后记录一下调试这个板子的问题,便于以后查看。

2022-12-11 09:39:37 5707 1

原创 [论文阅读笔记18] DiffusionDet论文笔记与代码解读

扩散模型近期在图像生成领域很火, 没想到很快就被用在了检测上. 打算对这篇论文做一个笔记.论文地址: 论文代码: 代码首先介绍什么是扩散模型. 我们考虑生成任务, 即encoder-decoder形式的模型, encoder提取输入的抽象信息, 并尝试在decoder中恢复出来. 扩散模型就是这一类中的方法, 其灵感由热力学而来, 基本做法是在输入中逐步加噪, 并学会如何在噪声中恢复出输入. 在加噪和去噪的过程中都假设为Markov过程.假定原始数据服从分布x0∼q(x)\textbf{x}_0\sim

2022-11-24 16:39:00 4341 10

原创 [杂记]算法: 单调栈

单调栈, 顾名思义就是从栈底到栈顶元素单调递增或者单调递减的栈. 往往, 我们在解决的时候可以用到单调栈.也是用两道算法题作为例子. 在这之前, 先简单写一下构造单调栈的模板.

2022-11-20 21:41:19 477

原创 [杂记]算法: 快慢指针

打算以后记录一些比较有代表性的算法. 仅从初学者角度对算法进行简单解读, 以力扣题为例.

2022-11-08 21:02:27 389

原创 [杂记]C++中的lambda函数、可变参数模板

这两个内容没有什么联系, 只是放到一起做一下笔记.

2022-09-19 16:52:09 900

原创 [杂记]C++中移动语义与完美转发的一些理解

这一块比较难 初步做一个笔记 希望将来能有更深的理解。

2022-09-18 15:51:48 643

原创 [杂记]关于C++中友元的一些理解

友元旨在让函数或类访问另一个类中的成员, 下面根据友元的类型简单做一下整理.

2022-09-16 12:19:31 407

原创 [杂记]关于C++中类继承的一些理解

这篇主要对继承类型和菱形继承问题做一个笔记。

2022-09-15 11:17:01 614

原创 [杂记]C++中关于虚函数的一些理解

如果派生类定义了新的虚函数,则该函数的地址也将被添加到vtbl中。注意,无论类中包含的虚函数是1个还是10个,都只一需要在对象中添加1个地址成员,只是表的大小不同而已。

2022-09-13 21:26:08 549

原创 [论文阅读笔记17]MAT: Motion-Aware Multi-Object Tracking

MAT: Motion-Aware Multi-Object Tracking解读

2022-08-25 22:32:03 2037

原创 YOLO X, v7, v8 + 各种跟踪器(SORT, DeepSORT, ByteTrack, BoT-SORT)实现多目标跟踪

支持三种检测器(YOLOX,v7,v8)和7种跟踪器(SORT, DeepSORT, ByteTrack, BoT-SORT, etc.)实现任意数据集的多目标跟踪!模块化解耦设计,便于集成和修改!

2022-08-18 10:06:19 27269 198

高等代数知识精简.docx

丘维声版高等代数,工科生粗略自学,里面记了一些我觉得比较重要的基础知识,可作复习之用。

2021-02-05

陈纪修数学分析上册知识点整理

工科生自学的数学分析,目的只是开拓视野(我学的也不精),对里面的精华做了总结,没有非常完整的证明。适合期末复习!免费下载,以后学完别的还会上传。

2020-11-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除