自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(97)
  • 资源 (2)
  • 收藏
  • 关注

原创 [论文阅读笔记35] Tune-A-Video: One-Shot Tuning of Image Diffusion Models for Text-to-Video Generation 代码精读

Tune-A-Video通过One-shot的方式, 也就是, 需要对每个你希望编辑的视频, 都需要训练一次. 训练过程只需要待编辑的视频, 不需要其他的, 因为相关的world knowledge是由预训练的Stable Diffusion提供的.既然是视频生成, 那就必须要约束生成帧的时间一致性. 因此就通过重新设计注意力机制的形式让temporal之间也进行注意力计算, 从而维持一致性. 模型的总框图如下:下面通过数据读取, 模型细节, 训练过程, 推理过程四部分对代码进行解读。

2024-09-05 20:37:06 678 1

原创 [翻译+笔记] 用于视频生成的Diffusion Model

这次翻译+笔记的博客是https://lilianweng.github.io/posts/2021-07-11-diffusion-models/在阅读这篇博客前, 推荐先对Diffusion Model进行了解. 可以看我的笔记: https://blog.csdn.net/wjpwjpwjp0831/article/details/141524088视频相关的任务向来是比图像更有挑战性, 这是因为视频除了空间域之外, 还有时间域, 并且还要保证时空连续性, 来达到合理的结果. 此外, 对于视频任务来说

2024-08-30 17:23:30 1112

原创 [翻译+笔记] Score-based generation: 通过数据分布的梯度进行生成建模

本次翻译+笔记的是Yang Song博士的博客. Yang Song博士提出了一系列的score-based的生成模型, 并对后续Diffusion model也产生了很深远的影响.

2024-08-29 10:11:40 848

原创 [翻译+笔记] 什么是Diffusion模型?

原博客地址为https://lilianweng.github.io/posts/2021-07-11-diffusion-models/该笔记是[翻译+笔记]GAN和[翻译+笔记]VAE的续集.之前的生成模型或多或少都有一些缺陷, 例如, GAN的训练不够稳定, VAE的训练实际上要依靠一些代理损失, 并不直接作用在网络上, 而流模型需要用特定的结构来实现取逆的操作.Diffusion模型是基于非平衡热力学的, 其定义了一个Markov过程来给原始数据逐步加噪, 然后学习从噪声中恢复样本. 和VAE不同,

2024-08-26 11:34:29 870

原创 [论文阅读笔记34] LISA (LISA: Reasoning Segmentation via Large Language Model) 代码精读

LISA是一个很好的Reason Segmentation的baseline, 其利用特殊的token [SEG]来微调多模态LLM和SAM的decoder来实现复杂逻辑下的prompt的推理分割. 其整体框图如下, 本篇文章精度此代码并作简单复现.

2024-08-06 14:12:15 429

原创 [论文阅读笔记33] Matching Anything by Segmenting Anything (CVPR2024 highlight)

MOT的本质是在帧间进行同一个目标的稳定关联。现有的MOT主要依赖于特定domain的数据集(比如行人MOT challenge,车辆VisDrone等),限制了cross domain的泛化性。针对这个问题,作者提出了MASA,可以实现在任意域中跟踪任意目标。具体来说,利用SAM能够给出的丰富的目标分割,MASA的任务就是通过data augmentation学习一个instance level的对应。

2024-06-27 16:40:55 1590 1

原创 [论文阅读笔记32] Object-Centric Multiple Object Tracking (ICCV2023)

无监督的object-centric learning(OCL)可以将场景划分为多个object,而无需进行先验的定位(例如pretrain的detector)。这正好可以解决MOT标注信息繁多、困难的问题。空间上,OCL没有正确认识整个物体的语义信息,导致物体往往被划分成了很多parts时间上,OCL也无法准确地维护帧间连续性。

2024-06-22 17:09:06 1167

原创 [论文阅读笔记31]Mamba (Selective Structured State Space Model) 及其应用

现有的基础模型都是以Transformer结构作为核心组建的。然而,Transformer中的注意力是二次方的复杂度,为了降低这个复杂度,一些线性注意力、门控卷积(gated convolution)和循环网络,以及状态空间模型(structured state space models,SSM)被提出,然而它们在一些重要的模态,例如语言中的性能并没有达到和Transformer中attention相媲美的程度。

2024-05-26 18:57:33 2968 1

原创 [InternLM训练营第二期笔记]7. OpenCompass 大模型评测实战

该系列是上海AI Lab举行的书生 浦语大模型训练营的相关笔记部分。该笔记是第七节课,学习大语言模型评测的基本概念,以及评测系统OpenCompass的使用。

2024-04-25 17:18:49 383

原创 [InternLM训练营第二期笔记]6.Lagent & AgentLego 智能体应用搭建

继承 BaseTool 类修改 default_desc 属性(工具功能描述)如有需要,重载 setup 方法(重型模块延迟加载)重载 apply 方法(工具功能实现)下面我们实现一个调用 MagicMaker 的 API 以实现图像生成的工具。class MagicMakerImageGeneration(BaseTool): # 第一步 继承BaseTool类。

2024-04-25 14:10:35 856

原创 [InternLM训练营第二期笔记]5. LMDeploy 量化部署 LLM 实践

KV Cache是一种缓存技术,通过存储键值对的形式来复用计算结果,以达到提高性能和降低内存消耗的目的。在大规模训练和推理中,KV Cache可以显著减少重复计算量,从而提升模型的推理速度。理想情况下,KV Cache全部存储于显存,以加快访存速度。当显存空间不足时,也可以将KV Cache放在内存,通过缓存管理器控制将当前需要使用的数据放入显存。模型在运行时,占用的显存可大致分为三部分:模型参数本身占用的显存、KV Cache占用的显存,以及中间运算结果占用的显存。

2024-04-24 23:31:24 1015

原创 [InternLM训练营第二期笔记]4. XTuner 微调 LLM:1.8B、多模态、Agent

微调的目的是为了让foundation模型在特定的领域更好地发挥作用。增量预训练与指令跟随。其中,增量预训练的意思是继续训练,加入领域内的一些特定的知识。这个过程是无监督的,不需要人为制造高质量对话。而指令跟随微调,是让模型学会对话模板,因此是有监督的,数据是高质量的问答数据。

2024-04-20 15:42:30 1005

原创 [InternLM训练营第二期笔记]3. “茴香豆“:零代码搭建你的 RAG 智能助理

该系列是上海AI Lab举行的书生 浦语大模型训练营的相关笔记部分。该笔记是第三节课,学习RAG的基本概念,以及对于开源RAG应用“茴香豆”进行部署。

2024-04-10 21:48:39 1155

原创 [论文阅读笔记30] (AAAI2024) UCMCTrack: Multi-Object Tracking with Uniform CMC 详细推导

在多目标跟踪中,相机不规则运动一直是一个难题,这是因为相机的快速运动会导致目标在画面中的位置发生突变,这样就很难再和过去的轨迹关联起来。一种办法是采用相机运动补偿(Camera Motion Compensation)方法,但是现有的利用CMC的方法速度都是比较慢的。为了解决这个问题,作者提出了一种新的Kalman Filter的方式,即将目标的运动状态与地面联系起来(地面就是画面中真实的地面,我认为这才是这篇论文核心的contribution。

2024-04-08 23:20:47 1676 7

原创 [InternLM训练营第二期笔记]2. 轻松分钟玩转书生·浦语大模型趣味 Demo

该系列是上海AI Lab举行的书生 浦语大模型训练营的相关笔记部分。该笔记是第二节课,完成对话、多模态等demo,形成对InternLM的初步了解。

2024-04-04 09:45:34 929

原创 [InternLM训练营第二期笔记]1. 书生·浦语大模型全链路开源开放体系

当前,人工智能的发展趋势是从专用模型到通用模型迈进。专用模型往往是解决一个特定的问题,而通用模型可以结合多种模态,完成多种任务。当前,InternLM模型已经完成了多轮的迭代,并在今年的1月,正式升级成为InternLM2:InternLM2目前已经开源了7B和20B的两个规格,而每个规格包含了三种模型的版本。InternLM2-Base相当于一个模型基准,通过对Base在各个方向上进行强化,就得到了InternLM。在Base的基础上,经过SFT(

2024-03-30 17:26:13 1066

原创 [杂记]mmdetection3.x中的数据流与基本流程详解(数据集读取, 数据增强, 训练)

之前跑了一下mmdetection 3.x自带的一些算法, 但是具体的代码细节总是看了就忘, 所以想做一些笔记, 方便初学者参考. 其实比较不能忍的是, 官网的文档还是空的…这次想写其中的数据流是如何运作的, 包括从读取数据集的样本与真值, 到数据增强, 再到模型的forward当中.

2024-02-19 22:21:02 1427

原创 [论文阅读笔记29]MOT+CLIP: Generalizing MOT to Unseen Domains by Introducing NL Presentation

继CLIP大火之后, 许多基于CLIP的工作都应用在各种各样的视觉下游任务中, 例如检测, 分割, 风格迁移, 视频动作识别, 视频文本检索等等. 跟踪也不例外, 今天想对这篇文章做一个笔记, 据我所知应该是第一篇将MOT与CLIP结合的文章, 用以通过对目标更高阶的信息表示(也就是自然语言表示)来解决域适应的问题(因为如果将一个目标描述为"穿着红衣服的人", 那么这种目标不论在哪个数据集中都具有相似的特征).论文: Generalizing multiple object tracking to unse

2024-02-05 10:57:58 1122 8

原创 [论文阅读笔记28] 对比学习在多目标跟踪中的应用

对于预测的一个边界框, 如果它和某个真值的IoU大于。

2023-12-24 21:46:44 1567

原创 [论文阅读笔记27]Occlusion-Aware Detection and Re-ID Calibrated Network for Multi-Object Tracking

在MOT任务中, 遮挡一直是一个有挑战性的问题. 遮挡不仅会降低检测效果, 导致轨迹碎片化, 还会影响Re-ID的精度. 为此, 我们提出了ORCTrack解决遮挡问题. 具体地, 我们提出了一个关注遮挡的注意力模块(Occlusion-Aware Attention Module), 这个模块的目标是突出目标特征, 抑制背景特征, 进而提升检测器对潜在被遮挡目标的精度. 此外, 我们还设计了基于最优传输的Re-ID特征匹配模块, 目的是利用帧间的互补性对Re-ID特征进行增强和校准.

2023-10-05 10:54:06 971 2

原创 [论文阅读笔记26]Tracking Everything Everywhere All at Once

传统的光流或者粒子视频跟踪方法都是用有限的时间窗口去解决的, 所以他们并不能很好的应对长时遮挡, 也不能保持估计的轨迹的全局连续性. 为此, 我们提出了一个完整的, 全局的。

2023-08-26 17:36:16 3900 2

原创 [论文阅读笔记25]A Comprehensive Survey on Graph Neural Networks

对于图像数据来说, CNN具有平移不变性和局部连接性, 因此可以在欧氏空间上良好地学习. 然而, 对于具有图结构的数据(例如社交网络 化学分子等)就需要用GNN来学习.最早期的GNN网络是遵循类似RNN的循环迭代式的(RecGNN), 主要的对象是DAG(有向无环图). 这个方式停止的条件是节点的表示趋于稳定.

2023-08-26 09:23:49 1316

原创 [论文阅读笔记24]Social-STGCNN: A Social Spatio-Temporal GCNN for Human Traj. Pred.

行人轨迹预测是一个比较有挑战性的任务, 有着许多的应用. 一个行人的轨迹不仅是由自己决定的, 而且受其周围目标的影响. 过去的方法都是学习每个行人自己的运动状态, 然而本文的方法是用一个GNN对整个场景的行人之间的interaction进行建模. 本文提出的方法叫Social-STGCNN, 是在STGCNN(一个基于骨架的action recognization的方法) 的基础上拓展到轨迹预测任务中的.

2023-07-24 21:00:41 1879 1

原创 [论文阅读笔记23]Adaptive Sparse Convolutional Networks with Global Context Enhancement for ... on drone

题目当中有三个关键词, 对应了本篇文章的三个关键点: Adaptive, Global和Faster. 作者针对小目标检测的稀疏卷积的问题, 做出了两个改进: 自适应mask比例, 和上下文增强.第一句: 背景+意义. 强调UAV下的目标检测很重要, 速度也很重要.第二句: 引出本篇论文的研究对象, 即稀疏卷积. 稀疏卷积可以平衡精度与速度.第三句小目标情况下上下文信息的不充分+不同尺度下mask比例难以控制.第四句本文propose了什么, 针对问题1是如何做的, 问题2是如何做的。

2023-07-20 10:47:57 1476 11

原创 用TrackEval评测自己的数据集

跑通代码最重要的就是路径问题, 为此我写了两个config模板, 让配置路径更简单.

2023-04-13 11:19:36 2796 23

原创 [论文阅读笔记22]Identity-Quantity Harmonic Multi-Object Tracking

通常的MOT算法在匹配阶段时, 都是通过线性指派问题求解, 即会计算一个代价矩阵, 例如代价矩阵的行表示轨迹, 列表示检测, 元素代表轨迹与检测之间的相似度. 往往是通过匈牙利算法等求解出代价矩阵的最佳匹配. 但是这都基于一个前提, 即对于代价矩阵C∈Rm×nC∈Rm×n的匹配结果A∈01m×nA∈01m×n, 满足∑i1nAki1∀k1m∑i1mAik1∀k1ni1∑n​Aki1∀k。

2023-04-09 12:41:35 835

原创 [论文阅读笔记21]Quo Vadis: Is Trajectory Forecasting the Key Towards Long-Term Multi-Object Tracking?

长时跟踪是一个经常被忽略的问题. 对于大于三秒钟的轨迹丢失, SOTA的跟踪器中只能恢复不到10%的轨迹. 轨迹丢失的时间越长, 其搜索空间(也就是之后可能的位置)就越大, 因此本文用轨迹预测的方式减少丢失轨迹的搜索空间, 提高精度.

2023-03-28 11:11:03 576 3

原创 [论文阅读笔记20]MotionTrack: Learning Robust Short-term and Long-term Motions for Multi-Object Tracking

这篇文章着力于解决长时设计了一个交互模块(Interaction Module), 来学习短轨迹之间的相互作用. 简单来说, 就是根据目标相邻两帧的的偏移, 计算出一个表征目标之间相互影响的矩阵, 随后利用该矩阵经过一个GCN和MLP来直接得到目标的预测位置(代替Kalman滤波).设计了一个恢复模块(Refined Module), 用来拼接碎片化的轨迹. 对于没有匹配成功的检测和丢失的轨迹, 计算他们之间的速度-时间关系, 并保留匹配程度高的组合.

2023-03-27 21:58:58 3061 5

原创 [论文阅读笔记19]SiamMOT: Siamese Multi-Object Tracking

本文提出了一个孪生(Siamese)式的MOT网络, 该网络用来估计帧间目标的运动. 为了探究运动估计对多目标跟踪的影响, 本文提出了两种运动建模方式: 显式和隐式. 本文在一些数据集上取得了良好的结果.

2023-02-22 21:33:48 949 1

原创 [杂记]算法:前缀和与差分数组

这样, 如果我们要计算。

2023-01-16 17:52:46 757

原创 [杂记]算法: 并查集

我们考虑如何计算一个图连通分量的个数. 假定简单无向图G有两个连通分量(子图)G1​G2​, 如下图所示:一个很自然的想法是, 要想求连通分量个数, 我们可以使用Full-DFS算法, 也就是我们从某个点开始深度优先搜索, 并标记访问过的元素. 随后挨个顶点判断, 如果某个点没有被访问过, 则接着从该点进行深度优先搜索,除此之外, 我们还可以用并查集来求图中连通分量的个数. 并查集, 顾名思义, 有并与查两部分.

2023-01-13 10:23:56 602

原创 踩坑记录2——RK3588跑通YOLO v5+DeepSORT

上篇说到RK3588编译OpenCV, 这篇记录一下跑通YOLO v5+DeepSORT的愉(chi)快(shi)历程.

2022-12-29 09:53:50 5639 26

原创 [翻译+笔记]变分自编码器:从AutoEncoder到Beta-VAE

自编码器是用来重构高维数据的,它利用一个有bottleneck层的神经网络。bottleneck层获取压缩的潜在编码,这样将嵌入向量以低维表示可以应用在许多地方,例如搜索,数据压缩,或揭示数据潜在的生成因素。记号意义DD数据集 大小为nx(i)x^{(i)}x(i)数据集中的样本,维数为dxxx数据集中的样本x′x'x′xxx的重建版本x~\tilde{x}x~xxx经噪声腐蚀的版本zzzbottleneck学习到的压缩编码aj(l)a_j^{(l)}a。

2022-12-24 11:02:34 1257

原创 [翻译+笔记]生成对抗网络: 从GAN到WGAN

最近读了一篇社会力模型的论文, 里面用到了GAN, 发现自己不是很懂. 想翻译一下一个大神的博客, 做一下笔记. 并不是全文翻译, 只翻译一部分.原文地址: from GAN to WGAN在介绍GAN之前, 首先复习一下衡量两个概率分布相似度的两种指标.(1) K-L散度: KL散度衡量了某个概率分布ppp是取自(发散自, 来自)另一个期望的(理论的)概率分布qqq的程度:DKL(p∣∣q)=∫xp(x)log⁡p(x)q(x)dxD_{KL}(p||q)=\int_xp(x)\log{\frac{p(x

2022-12-21 16:50:44 654

原创 踩坑记录1——RK3588编译OpenCV

这两天有在板卡上跑代码的需求,拿到了一块RK3588CPU的板子,型号是HINLINK的HK88.以后记录一下调试这个板子的问题,便于以后查看。

2022-12-11 09:39:37 6012 1

原创 [论文阅读笔记18] DiffusionDet论文笔记与代码解读

扩散模型近期在图像生成领域很火, 没想到很快就被用在了检测上. 打算对这篇论文做一个笔记.论文地址: 论文代码: 代码首先介绍什么是扩散模型. 我们考虑生成任务, 即encoder-decoder形式的模型, encoder提取输入的抽象信息, 并尝试在decoder中恢复出来. 扩散模型就是这一类中的方法, 其灵感由热力学而来, 基本做法是在输入中逐步加噪, 并学会如何在噪声中恢复出输入. 在加噪和去噪的过程中都假设为Markov过程.假定原始数据服从分布x0∼q(x)\textbf{x}_0\sim

2022-11-24 16:39:00 4730 11

原创 [杂记]算法: 单调栈

单调栈, 顾名思义就是从栈底到栈顶元素单调递增或者单调递减的栈. 往往, 我们在解决的时候可以用到单调栈.也是用两道算法题作为例子. 在这之前, 先简单写一下构造单调栈的模板.

2022-11-20 21:41:19 519

原创 [杂记]算法: 快慢指针

打算以后记录一些比较有代表性的算法. 仅从初学者角度对算法进行简单解读, 以力扣题为例.

2022-11-08 21:02:27 424

原创 [杂记]C++中的lambda函数、可变参数模板

这两个内容没有什么联系, 只是放到一起做一下笔记.

2022-09-19 16:52:09 939

原创 [杂记]C++中移动语义与完美转发的一些理解

这一块比较难 初步做一个笔记 希望将来能有更深的理解。

2022-09-18 15:51:48 658

高等代数知识精简.docx

丘维声版高等代数,工科生粗略自学,里面记了一些我觉得比较重要的基础知识,可作复习之用。

2021-02-05

陈纪修数学分析上册知识点整理

工科生自学的数学分析,目的只是开拓视野(我学的也不精),对里面的精华做了总结,没有非常完整的证明。适合期末复习!免费下载,以后学完别的还会上传。

2020-11-15

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除