此心安处是吾乡

Tune-A-Video通过One-shot的方式, 也就是, 需要对每个你希望编辑的视频, 都需要训练一次. 训练过程只需要待编辑的视频, 不需要其他的, 因为相关的world knowledge是由预训练的Stable Diffusion提供的.既然是视频生成, 那就必须要约束生成帧的时间一致性. 因此就通过重新设计注意力机制的形式让temporal之间也进行注意力计算, 从而维持一致性. 模型的总框图如下:下面通过数据读取, 模型细节, 训练过程, 推理过程四部分对代码进行解读。

2024-09-05 20:37:06 1218 4

原创 [翻译+笔记] 用于视频生成的Diffusion Model

这次翻译+笔记的博客是https://lilianweng.github.io/posts/2021-07-11-diffusion-models/在阅读这篇博客前, 推荐先对Diffusion Model进行了解. 可以看我的笔记: https://blog.csdn.net/wjpwjpwjp0831/article/details/141524088视频相关的任务向来是比图像更有挑战性, 这是因为视频除了空间域之外, 还有时间域, 并且还要保证时空连续性, 来达到合理的结果. 此外, 对于视频任务来说

2024-08-30 17:23:30 1465

原创 [翻译+笔记] Score-based generation: 通过数据分布的梯度进行生成建模

本次翻译+笔记的是Yang Song博士的博客. Yang Song博士提出了一系列的score-based的生成模型, 并对后续Diffusion model也产生了很深远的影响.

2024-08-29 10:11:40 1133

原创 [翻译+笔记] 什么是Diffusion模型?

原博客地址为https://lilianweng.github.io/posts/2021-07-11-diffusion-models/该笔记是[翻译+笔记]GAN和[翻译+笔记]VAE的续集.之前的生成模型或多或少都有一些缺陷, 例如, GAN的训练不够稳定, VAE的训练实际上要依靠一些代理损失, 并不直接作用在网络上, 而流模型需要用特定的结构来实现取逆的操作.Diffusion模型是基于非平衡热力学的, 其定义了一个Markov过程来给原始数据逐步加噪, 然后学习从噪声中恢复样本. 和VAE不同,

2024-08-26 11:34:29 1186

原创 [论文阅读笔记34] LISA (LISA: Reasoning Segmentation via Large Language Model) 代码精读

LISA是一个很好的Reason Segmentation的baseline, 其利用特殊的token [SEG]来微调多模态LLM和SAM的decoder来实现复杂逻辑下的prompt的推理分割. 其整体框图如下, 本篇文章精度此代码并作简单复现.

2024-08-06 14:12:15 1958 6

原创 [论文阅读笔记33] Matching Anything by Segmenting Anything (CVPR2024 highlight)

MOT的本质是在帧间进行同一个目标的稳定关联。现有的MOT主要依赖于特定domain的数据集（比如行人MOT challenge，车辆VisDrone等），限制了cross domain的泛化性。针对这个问题，作者提出了MASA，可以实现在任意域中跟踪任意目标。具体来说，利用SAM能够给出的丰富的目标分割，MASA的任务就是通过data augmentation学习一个instance level的对应。

2024-06-27 16:40:55 2705 1

原创 [论文阅读笔记32] Object-Centric Multiple Object Tracking (ICCV2023)

无监督的object-centric learning（OCL）可以将场景划分为多个object，而无需进行先验的定位（例如pretrain的detector）。这正好可以解决MOT标注信息繁多、困难的问题。空间上，OCL没有正确认识整个物体的语义信息，导致物体往往被划分成了很多parts时间上，OCL也无法准确地维护帧间连续性。

2024-06-22 17:09:06 1591 1

原创 [论文阅读笔记31]Mamba (Selective Structured State Space Model) 及其应用

现有的基础模型都是以Transformer结构作为核心组建的。然而，Transformer中的注意力是二次方的复杂度，为了降低这个复杂度，一些线性注意力、门控卷积（gated convolution）和循环网络，以及状态空间模型（structured state space models，SSM）被提出，然而它们在一些重要的模态，例如语言中的性能并没有达到和Transformer中attention相媲美的程度。

2024-05-26 18:57:33 5678 2

原创 [InternLM训练营第二期笔记]7. OpenCompass 大模型评测实战

该系列是上海AI Lab举行的书生浦语大模型训练营的相关笔记部分。该笔记是第七节课，学习大语言模型评测的基本概念，以及评测系统OpenCompass的使用。

2024-04-25 17:18:49 457

原创 [InternLM训练营第二期笔记]6.Lagent & AgentLego 智能体应用搭建

继承 BaseTool 类修改 default_desc 属性（工具功能描述）如有需要，重载 setup 方法（重型模块延迟加载）重载 apply 方法（工具功能实现）下面我们实现一个调用 MagicMaker 的 API 以实现图像生成的工具。class MagicMakerImageGeneration(BaseTool): # 第一步继承BaseTool类。

2024-04-25 14:10:35 978

原创 [InternLM训练营第二期笔记]5. LMDeploy 量化部署 LLM 实践

KV Cache是一种缓存技术，通过存储键值对的形式来复用计算结果，以达到提高性能和降低内存消耗的目的。在大规模训练和推理中，KV Cache可以显著减少重复计算量，从而提升模型的推理速度。理想情况下，KV Cache全部存储于显存，以加快访存速度。当显存空间不足时，也可以将KV Cache放在内存，通过缓存管理器控制将当前需要使用的数据放入显存。模型在运行时，占用的显存可大致分为三部分：模型参数本身占用的显存、KV Cache占用的显存，以及中间运算结果占用的显存。

2024-04-24 23:31:24 1178

原创 [InternLM训练营第二期笔记]4. XTuner 微调 LLM：1.8B、多模态、Agent

微调的目的是为了让foundation模型在特定的领域更好地发挥作用。增量预训练与指令跟随。其中，增量预训练的意思是继续训练，加入领域内的一些特定的知识。这个过程是无监督的，不需要人为制造高质量对话。而指令跟随微调，是让模型学会对话模板，因此是有监督的，数据是高质量的问答数据。

2024-04-20 15:42:30 1201

原创 [InternLM训练营第二期笔记]3. “茴香豆“:零代码搭建你的 RAG 智能助理

该系列是上海AI Lab举行的书生浦语大模型训练营的相关笔记部分。该笔记是第三节课，学习RAG的基本概念，以及对于开源RAG应用“茴香豆”进行部署。

2024-04-10 21:48:39 1267

原创 [论文阅读笔记30] (AAAI2024) UCMCTrack: Multi-Object Tracking with Uniform CMC 详细推导

在多目标跟踪中，相机不规则运动一直是一个难题，这是因为相机的快速运动会导致目标在画面中的位置发生突变，这样就很难再和过去的轨迹关联起来。一种办法是采用相机运动补偿（Camera Motion Compensation）方法，但是现有的利用CMC的方法速度都是比较慢的。为了解决这个问题，作者提出了一种新的Kalman Filter的方式，即将目标的运动状态与地面联系起来（地面就是画面中真实的地面，我认为这才是这篇论文核心的contribution。

2024-04-08 23:20:47 2861 11

原创 [InternLM训练营第二期笔记]2. 轻松分钟玩转书生·浦语大模型趣味 Demo

该系列是上海AI Lab举行的书生浦语大模型训练营的相关笔记部分。该笔记是第二节课，完成对话、多模态等demo，形成对InternLM的初步了解。

2024-04-04 09:45:34 1055

原创 [InternLM训练营第二期笔记]1. 书生·浦语大模型全链路开源开放体系

当前，人工智能的发展趋势是从专用模型到通用模型迈进。专用模型往往是解决一个特定的问题，而通用模型可以结合多种模态，完成多种任务。当前，InternLM模型已经完成了多轮的迭代，并在今年的1月，正式升级成为InternLM2：InternLM2目前已经开源了7B和20B的两个规格，而每个规格包含了三种模型的版本。InternLM2-Base相当于一个模型基准，通过对Base在各个方向上进行强化，就得到了InternLM。在Base的基础上，经过SFT（

2024-03-30 17:26:13 1125

原创 [杂记]mmdetection3.x中的数据流与基本流程详解(数据集读取, 数据增强, 训练)

之前跑了一下mmdetection 3.x自带的一些算法, 但是具体的代码细节总是看了就忘, 所以想做一些笔记, 方便初学者参考. 其实比较不能忍的是, 官网的文档还是空的…这次想写其中的数据流是如何运作的, 包括从读取数据集的样本与真值, 到数据增强, 再到模型的forward当中.

2024-02-19 22:21:02 1978 2

原创 [论文阅读笔记29]MOT+CLIP: Generalizing MOT to Unseen Domains by Introducing NL Presentation

继CLIP大火之后, 许多基于CLIP的工作都应用在各种各样的视觉下游任务中, 例如检测, 分割, 风格迁移, 视频动作识别, 视频文本检索等等. 跟踪也不例外, 今天想对这篇文章做一个笔记, 据我所知应该是第一篇将MOT与CLIP结合的文章, 用以通过对目标更高阶的信息表示(也就是自然语言表示)来解决域适应的问题(因为如果将一个目标描述为"穿着红衣服的人", 那么这种目标不论在哪个数据集中都具有相似的特征).论文: Generalizing multiple object tracking to unse

2024-02-05 10:57:58 1304 8

原创 [论文阅读笔记28] 对比学习在多目标跟踪中的应用

对于预测的一个边界框, 如果它和某个真值的IoU大于。

2023-12-24 21:46:44 2140 1

原创 [论文阅读笔记27]Occlusion-Aware Detection and Re-ID Calibrated Network for Multi-Object Tracking

在MOT任务中, 遮挡一直是一个有挑战性的问题. 遮挡不仅会降低检测效果, 导致轨迹碎片化, 还会影响Re-ID的精度. 为此, 我们提出了ORCTrack解决遮挡问题. 具体地, 我们提出了一个关注遮挡的注意力模块(Occlusion-Aware Attention Module), 这个模块的目标是突出目标特征, 抑制背景特征, 进而提升检测器对潜在被遮挡目标的精度. 此外, 我们还设计了基于最优传输的Re-ID特征匹配模块, 目的是利用帧间的互补性对Re-ID特征进行增强和校准.

2023-10-05 10:54:06 1698 2

原创 [论文阅读笔记26]Tracking Everything Everywhere All at Once

传统的光流或者粒子视频跟踪方法都是用有限的时间窗口去解决的, 所以他们并不能很好的应对长时遮挡, 也不能保持估计的轨迹的全局连续性. 为此, 我们提出了一个完整的, 全局的。

2023-08-26 17:36:16 4428 2

原创 [论文阅读笔记25]A Comprehensive Survey on Graph Neural Networks

对于图像数据来说, CNN具有平移不变性和局部连接性, 因此可以在欧氏空间上良好地学习. 然而, 对于具有图结构的数据(例如社交网络化学分子等)就需要用GNN来学习.最早期的GNN网络是遵循类似RNN的循环迭代式的(RecGNN), 主要的对象是DAG(有向无环图). 这个方式停止的条件是节点的表示趋于稳定.

2023-08-26 09:23:49 1473

原创 [论文阅读笔记24]Social-STGCNN: A Social Spatio-Temporal GCNN for Human Traj. Pred.

行人轨迹预测是一个比较有挑战性的任务, 有着许多的应用. 一个行人的轨迹不仅是由自己决定的, 而且受其周围目标的影响. 过去的方法都是学习每个行人自己的运动状态, 然而本文的方法是用一个GNN对整个场景的行人之间的interaction进行建模. 本文提出的方法叫Social-STGCNN, 是在STGCNN(一个基于骨架的action recognization的方法) 的基础上拓展到轨迹预测任务中的.

2023-07-24 21:00:41 2127 3

原创 [论文阅读笔记23]Adaptive Sparse Convolutional Networks with Global Context Enhancement for ... on drone

题目当中有三个关键词, 对应了本篇文章的三个关键点: Adaptive, Global和Faster. 作者针对小目标检测的稀疏卷积的问题, 做出了两个改进: 自适应mask比例, 和上下文增强.第一句: 背景+意义. 强调UAV下的目标检测很重要, 速度也很重要.第二句: 引出本篇论文的研究对象, 即稀疏卷积. 稀疏卷积可以平衡精度与速度.第三句小目标情况下上下文信息的不充分+不同尺度下mask比例难以控制.第四句本文propose了什么, 针对问题1是如何做的, 问题2是如何做的。

2023-07-20 10:47:57 2002 12

原创用TrackEval评测自己的数据集

跑通代码最重要的就是路径问题, 为此我写了两个config模板, 让配置路径更简单.

2023-04-13 11:19:36 4376 36

原创 [论文阅读笔记22]Identity-Quantity Harmonic Multi-Object Tracking

通常的MOT算法在匹配阶段时, 都是通过线性指派问题求解, 即会计算一个代价矩阵, 例如代价矩阵的行表示轨迹, 列表示检测, 元素代表轨迹与检测之间的相似度. 往往是通过匈牙利算法等求解出代价矩阵的最佳匹配. 但是这都基于一个前提, 即对于代价矩阵C∈Rm×nC∈Rm×n的匹配结果A∈01m×nA∈01m×n, 满足∑i1nAki1∀k1m∑i1mAik1∀k1ni1∑nAki1∀k。

2023-04-09 12:41:35 919 2

原创 [论文阅读笔记21]Quo Vadis: Is Trajectory Forecasting the Key Towards Long-Term Multi-Object Tracking?

长时跟踪是一个经常被忽略的问题. 对于大于三秒钟的轨迹丢失, SOTA的跟踪器中只能恢复不到10%的轨迹. 轨迹丢失的时间越长, 其搜索空间(也就是之后可能的位置)就越大, 因此本文用轨迹预测的方式减少丢失轨迹的搜索空间, 提高精度.

2023-03-28 11:11:03 761 7

原创 [论文阅读笔记20]MotionTrack: Learning Robust Short-term and Long-term Motions for Multi-Object Tracking

这篇文章着力于解决长时设计了一个交互模块(Interaction Module), 来学习短轨迹之间的相互作用. 简单来说, 就是根据目标相邻两帧的的偏移, 计算出一个表征目标之间相互影响的矩阵, 随后利用该矩阵经过一个GCN和MLP来直接得到目标的预测位置(代替Kalman滤波).设计了一个恢复模块(Refined Module), 用来拼接碎片化的轨迹. 对于没有匹配成功的检测和丢失的轨迹, 计算他们之间的速度-时间关系, 并保留匹配程度高的组合.

2023-03-27 21:58:58 4003 10

原创 [论文阅读笔记19]SiamMOT: Siamese Multi-Object Tracking

本文提出了一个孪生(Siamese)式的MOT网络, 该网络用来估计帧间目标的运动. 为了探究运动估计对多目标跟踪的影响, 本文提出了两种运动建模方式: 显式和隐式. 本文在一些数据集上取得了良好的结果.

2023-02-22 21:33:48 1074 1

原创 [杂记]算法:前缀和与差分数组

这样, 如果我们要计算。

2023-01-16 17:52:46 818

原创 [杂记]算法: 并查集

我们考虑如何计算一个图连通分量的个数. 假定简单无向图G有两个连通分量(子图)G1G2, 如下图所示:一个很自然的想法是, 要想求连通分量个数, 我们可以使用Full-DFS算法, 也就是我们从某个点开始深度优先搜索, 并标记访问过的元素. 随后挨个顶点判断, 如果某个点没有被访问过, 则接着从该点进行深度优先搜索,除此之外, 我们还可以用并查集来求图中连通分量的个数. 并查集, 顾名思义, 有并与查两部分.

2023-01-13 10:23:56 661

原创踩坑记录2——RK3588跑通YOLO v5+DeepSORT

上篇说到RK3588编译OpenCV, 这篇记录一下跑通YOLO v5+DeepSORT的愉(chi)快(shi)历程.

2022-12-29 09:53:50 7024 31

原创 [翻译+笔记]变分自编码器：从AutoEncoder到Beta-VAE

自编码器是用来重构高维数据的，它利用一个有bottleneck层的神经网络。bottleneck层获取压缩的潜在编码，这样将嵌入向量以低维表示可以应用在许多地方，例如搜索，数据压缩，或揭示数据潜在的生成因素。记号意义DD数据集大小为nx(i)x^{(i)}x(i)数据集中的样本，维数为dxxx数据集中的样本x′x'x′xxx的重建版本x~\tilde{x}x~xxx经噪声腐蚀的版本zzzbottleneck学习到的压缩编码aj(l)a_j^{(l)}a。

2022-12-24 11:02:34 1606

原创 [翻译+笔记]生成对抗网络: 从GAN到WGAN

最近读了一篇社会力模型的论文, 里面用到了GAN, 发现自己不是很懂. 想翻译一下一个大神的博客, 做一下笔记. 并不是全文翻译, 只翻译一部分.原文地址: from GAN to WGAN在介绍GAN之前, 首先复习一下衡量两个概率分布相似度的两种指标.(1) K-L散度: KL散度衡量了某个概率分布ppp是取自(发散自, 来自)另一个期望的(理论的)概率分布qqq的程度:DKL(p∣∣q)=∫xp(x)log⁡p(x)q(x)dxD_{KL}(p||q)=\int_xp(x)\log{\frac{p(x

2022-12-21 16:50:44 715

高等代数知识精简.docx

陈纪修数学分析上册知识点整理

空空如也