自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(422)
  • 资源 (1)
  • 收藏
  • 关注

原创 Linux下的ELF文件、链接、加载与库(含大量图文解析及例程)

Linux下的ELF文件、链接、加载与库链接是将将各种代码和数据片段收集并组合为一个单一文件的过程,这个文件可以被加载到内存并执行。链接可以执行与编译时,也就是在源代码被翻译成机器代码时;也可以执行于加载时,也就是被加载器加载到内存执行时;甚至执行于运行时,也就是由应用程序来执行。​ — CSAPP本文主要参考[原创] Linux环境下:程序的链接, 装载和库,[完结] 2020 南京大学

2021-10-06 23:14:49 12056 4

原创 Vision Transformer(ViT)PyTorch代码全解析(附图解)

Vision Transformer(ViT)代码全解析最近CV领域的Vision Transformer将在NLP领域的Transormer结果借鉴过来,屠杀了各大CV榜单。本文将根据最原始的Vision Transformer论文,及其PyTorch实现,将整个ViT的代码做一个全面的解析。对原Transformer还不熟悉的读者可以看一下Attention is All You Need原文,中文讲解推荐李宏毅老师的视频,个人觉得讲的很明白。话不多说,直接开始。下图是ViT的整体框架图,我们在

2021-07-14 17:56:46 68951 88

原创 PyTorch中的torch.nn.Parameter() 详解

PyTorch中的torch.nn.Parameter() 详解今天来聊一下PyTorch中的torch.nn.Parameter()这个函数,笔者第一次见的时候也是大概能理解函数的用途,但是具体实现原理细节也是云里雾里,在参考了几篇博文,做过几个实验之后算是清晰了,本文在记录的同时希望给后来人一个参考,欢迎留言讨论。分析先看其名,parameter,中文意为参数。我们知道,使用PyTorch训练神经网络时,本质上就是训练一个函数,这个函数输入一个数据(如CV中输入一张图像),输出一个预测(如输出这张

2021-07-14 16:21:09 85171 34

原创 RLOO:将多次其他回答的平均reward作为baseline

RLOO 和 ReMax 基本算是同期的工作,整体思路也不谋而合,都是分析了特定 RLHF 语境下的特点,以及 PPO 在 RLHF 下某些改进或许是不合适的,并都是基于经典的 REINFORCE 算法,设计了各自的针对于 RLHF 的 baseline 计算方法。区别在于,ReMax 的 baseline 是同一条 prompt 贪婪采样的 reward;RLOO 的 baseline 则是同一条 prompt 的其他k−1k-1k−1条采样结果 reward 的平均。

2025-05-06 20:43:21 991

原创 ReMax:将贪婪采样的 reward 作为 baseline

ReMax 是很早就提出 RLHF 不用 value model 的工作之一。论文首先分析了 RLHF 相较于传统 RL 的独特性,然后在经典的 REINFORCE 算法的基础上,引入贪婪采样结果的 reward 作为 baseline,来降低方差。方法简单有效,理论分析也比较充分,是一篇很不错的工作。

2025-05-06 20:41:46 639

原创 GRPO:利用组内平均奖励来计算优势

GRPO 在 DeepSeek Math 中就提出了,在 R1 火爆出圈后,得到了大家的广泛关注和应用。在 R1 爆火后的一段时间里,大家进行 RLHF 训练的主流算法都切换到了 GRPO。具体算法方案上,GRPO 利用组内平均奖励来计算优势,相比于 PPO 需要额外训练一个 value model 的方式,训练开销的降低是肯定的,但是个人认为从效果天花板来看,不一定能比 PPO 更强。

2025-05-01 17:19:30 1119

原创 DAPO:对GRPO的几点改进

DAPO 对标准 GRPO 的一些细节进行了改进优化,从实验结果来看,提升非常显著。字节能开放自己在 RLHF 领域的探索结果出来肯定是非常好的。美中不足是感觉报告的写作比较潦草,并且实验略显单薄,以及对于 clip higher 这个解决方案个人感觉不是很对症。当然也可能是我自己理解不到位 😃,期望有大佬能指点下我的困惑。

2025-04-30 17:06:31 796

原创 广义优势估计 GAE

本文中,我们首先回顾了之前介绍过的基于累积回报的Ψt\Psi_tΨt​选择,这类选择虽然是无偏的,但是由于需要多次采样,会造成累积方差很大。为了减小方差,我们考虑了基于价值函数的Ψt\Psi_tΨt​选择,但是在价值网络估计的价值函数不准时,这类选择的偏差又比较大。GAE 提出了一种一般形式,将多项对优势函数的估计值进行加权表示,通过调节超参数λ\lambdaλ,实现了偏差和方差之间进行权衡,目前已经成为策略梯度类算法中优势函数形式的主流选择。

2025-04-15 10:39:33 627

原创 KL散度的三种估计k1 k2 k3

本文中我们首先介绍了 KL 散度最常用的估计 k1,但是发现它方差非常大,然后我们介绍 f 散度并设计了对 KL 散度近似的 k2 估计,k2 降低了方差但是是有偏的。为了得到无偏且低方差的估计,我们又考虑通过 control variate 构造了 k3 估计,达到了比较理想的对 KL 散度的估计。在 RL (for LLM) 中,k2、k3 都有被选用,我们需要根据实际场景分析和实验来决定选用哪种估计(比如 k2 估计要求两分布是比较接近的,才能有降低的偏差)。

2025-04-10 22:00:05 478

原创 重要性采样与PPO、TRPO

本文中,我们首先介绍了强化学习中 on/off policy 的概念,指出 off policy 的样本效率更高,因此我们想将 on policy 的策略梯度法转换为 off policy 的方法。我们借助重要性采样来实现这一转换,但同时也发现重要性采样的方差存在一定隐患,需要保证两个分布之间差异不要太大,这便是 TRPO / PPO 要解决的问题。TRPO 采用了 KL 硬约束来限制两分布的差异,PPO 则提出了 KL 软约束和 CLIP 两种方案。

2025-04-10 11:22:00 860

原创 强化学习Q-Learning:DQN

本文我们先介绍了强化学习中的价值函数,然后介绍如何训练价值网络来拟合价值函数,以及 Q-learning/DQN 中如何不断地优化 policy,最后介绍了 Q-learning 在实际实现中常用的几个技巧。

2025-04-07 23:08:45 613

原创 强化学习策略梯度

本文将首先推导强化学习策略梯度最简单的形式,然后对这个最简形式进行一些改造优化,最终得到我们实际中使用的标准策略梯度实现。我们这里考虑一个随机的、参数化的策略 πθ\pi_\thetaπθ​,我们的目标是最大化期望回报 J(πθ)=Eτ∼πθ[R(τ)]J(\pi_\theta)=\mathbb{E}_{\tau\sim\pi_\theta}[R(\tau)]J(πθ​)=Eτ∼πθ​​[R(τ)]。期望回报 J(πθ)J(\pi_\theta)J(πθ​) 是指按照特定的策略 πθ\pi_\thetaπθ

2025-04-03 00:12:40 809

原创 DPO 推导及其问题讨论

DPO 通过巧妙的推导,整合了 RLHF 的两阶段(RM + PPO)训练流程,直接根据偏好数据进行优化,大大简化了训练流程。但也由于缺少在线采样和打分的过程,探索能力有限,性能稍逊于 PPO/GRPO 等 RL 算法,对偏好数据集的质量要求更高。

2025-03-25 17:06:01 879

原创 Qwen2.5 VL 通读

Qwen 系列比较稳健,一直是每次都有一定创新,且一直保持开源。现在应该是全球范围内(最)领先的开源多模态模型了,最近几个 VLM R1 相关的项目基本全都是用 Qwen 2/2.5 VL 作为基座,都取得了不错的结果。

2025-03-24 18:04:04 1313

原创 NaViT:训练任意分辨率和长宽比的 ViT

仅从结构上来说,ViT 要支持任意分辨率、任意长宽比输入图像,只要位置编码是可外推的绝对位置编码就行了,现在来看比较常用的是苏神的 2D RoPE,Qwen 2/2.5 VL 中就采用了这种方式。NaViT 主要是将 NLP 训练中的 sequence packing 引入了过来,将多个长度不一的 token 序列放到一个 sequence 里,并对 self attention 进行 masking 避免不同图片之间的干扰。(不过我看大部分训练库都没实现这个?不知道哪里能找到参考实现。

2025-03-14 17:12:44 867

原创 Flash Attention 算法简介

Flash Attention,是近几年 MLSys 领域最重要的工作之一。它考虑到 self attention 在 GPU 上计算时的 I/O 特性,通过 tiling 的思想对 self attention 过程中的矩阵乘法、softmax 等操作进行分块处理,使得每个块的计算都能在 GPU SRAM 内部完成,减少对 GPU HBM 的访存开销,大大提升了 self attention 的计算速度,并且能保证最终结果与标准 self-attention 一致。同时,采用 recompute 的方法,

2025-03-12 20:51:41 1040

原创 Rectified Flow 原理简介与示例代码解读

Rectified Flow 直接在两分布间插值构建了一种新的扩散模型形式,在简化形式的同时期望实现 “走直线” 的采样轨迹,从而减少采样步数,加快生图速度,这种形式已经在 SD3、Flux 等最新的图像生成中得到了验证和应用。本文还进一步提出了 Reflow 方法,通过训练好的模型的预测结果来为新模型的训练构造样本配对,从而能够进一步拉直采样轨迹,提高低步数下的采样质量。并为理解扩散模型蒸馏提供了一种新的角度。

2024-12-28 00:02:59 2060 2

原创 Flux Tools 结构简析

在基础模型结构切换到 (MM-)DiT 之后,Flux 官方选择通过拼接条件 token 来实现条件控制,这似乎与 MM-DiT 直接将文本作为输入来实现条件控制的设计思路一脉相承。在 Flux Tools 发布之前,第三方的 ControlNet、IP Adapter 却还是沿用之前 UNet 时代的外挂 Adapter 的方案。在 DiT 架构上,这两种条件控制方式相比有何优劣?实测条件控制效果与出图质量如何,兼容性、可插拔性方面是否会受到影响?在实际应用或训练时应该如何选择?都是仍待探究的问题。

2024-12-18 22:43:56 1132

原创 扩散模型设计选项的全面拆解与分析:EDM

以上我们已经将整个扩散模型的设计空间(包括训练过程、采样过程)的所有规格可选项全部梳理出来了。采样sts(t)st:缩放因子σt\sigma(t)σt:噪声的标准差ti\{t_i\}ti​:离散化的步长ODE Solver:所选用的 ODE 求解器训练cskipσcskip​σ:用于调制跳跃连接;coutσcout​σ:输出缩放因子;cinσcin​σ:输入缩放因子;cnoiseσcnoise​σ:噪声条件化λ。

2024-12-13 00:53:25 1632

原创 Diffusion Transformer模型结构解析(DiT、SD3、Flux)

从 UNet 迁移到 DiT,可以利用 Transformer 模型的 scaling 能力,通过增大参数量来提升出图的质量。在这个迁移过程中,我们需要考虑 Transformer 应用于扩散模型时的 patchify、positional encoding、conditioning 等几个重要环节。DiT 首先提出,确立了 patchify 的方法,并实验得到 adaLN 是比较适合 Diffusion Transformer 的 conditioning 方式;

2024-11-14 15:23:15 3251 1

原创 扩散模型对抗蒸馏:ADD 和 Latent-ADD

ADD 和 LADD 是 SD 系列同步推出的模型加速方法,结合对抗训练和蒸馏训练,提高模型的生图速度的同时兼顾生成质量,分别训练出了 SDXL-Turbo、SD3-Turbo 等模型,在开源加速模型中有比较大的影响力。

2024-10-21 17:44:06 1450

原创 CFG 蒸馏:On Distillation of Guided Diffusion Models

CFG 能够很好地在生图质量和多样性之间进行权衡,但是两次模型推理的开销确实太大,将这个调节参数蒸馏到模型内部是一个很好的想法,能够有效提高条件图的速度。最近的 Flux dev 也是对 Flux pro 进行了 CFG 蒸馏,不知是不是就是使用的本文方法。

2024-10-15 17:12:51 1639

原创 CTM:从任意时刻到任意时刻的扩散模型蒸馏方法

CTM 也是扩散模型蒸馏的一篇经典工作,训练任意时刻到任意时刻的跳步能力,从而改善了 CM 中多步生成的累积误差问题,实现了生成速度和多步采样的质量之间更好地权衡。

2024-10-13 11:44:47 1374

原创 渐进蒸馏和v-prediction

早期提出的渐进蒸馏是一种比较直觉的扩散模型步数蒸馏方法,其提出的 v-prediction 在后来也有广泛的应用。

2024-10-10 20:30:47 1752

原创 基于Diffusion的图像修复方法

整体来说,基于 Diffusion 的 inpating 方法可以分为无需训练和需要训练两个大类。其中无需训练的方法主要是根据 mask 来调整采样策略,将掩码区域的去噪生成结果与掩码外区域的加噪结果进行混合(blend)。而需要训练的方法又可分为微调模型本身和添加额外的网路分支两类。核心就是更精细的像素级控制。PowerPaint 则通过设置可学习的 prompt,进一步实现了多功能的 inpainting 模型。无需训练调整采样策略Repaint需要训练微调。

2024-09-26 20:33:58 2359

原创 Honeybee Locality-enhanced Projector for Multimodal LLM

HoneyBee 提出了两种新颖的 MLLM Adapter:C-Abstractor 和 D-Abstractor,同时满足压缩 token 个数和保持空间信息两点要求,并且性能也更进一步。但个人感觉好像还是 Adaptive AvgPool 在发挥作用?感觉可以再对比一下 Linear + Adaptive AvgPool 的性能和推理时间。

2024-08-13 11:11:15 1122 1

原创 利用扩散模型的反馈优化图片理解模型

将判别模型的输出作为文生图模型的条件输入,利用文生图模型的梯度反馈来更新判别模型,从而改善判别模型的表征质量。有点 GAN 反着用的感觉。GAN 是判别模型倒逼生成模型生成更加真实的样本,而 DIffTTA 是生成模型倒逼判别模型生成质量更高的表征。但是文生图模型的语义理解能力也是来自 CLIP 的呀,为什么反过来还能提升 CLIP 的表征质量呢?感觉 DIVA 还是靠密集条件的策略?不知道哪里有更多理论分析。

2024-08-01 19:58:16 1484

原创 Weights2wights Interpreting the Weight Space of Customized Diffusion Models

本文提出的 Weights2weights 方法是基于三个紧密相关的基础方法:LDM、DreamBooth、LoRA。我们首先简要介绍这三个基础方法。LDMLDM(Latent Diffusion Model)通过引入 VAE 将扩散模型做在了隐空间,从而降低训练和推理成本。并通过交叉注意力将文本 prompt 条件注入到去噪扩散模型中。

2024-07-30 21:09:02 601

原创 CLIP微调方式

本文介绍了 Prompt Engineering 和 Adapter 两类 CLIP 微调方法。CLIP 可以说是多模态领域奠基之作,其借助文本塔构建的图文多模态联合语义空间赋予了图片理解更多的灵活性和想象空间,使得视觉领域的 zeroshot 分类成为了可能。并且,这种自然语言带来的灵活性在微调时也提供了更多的可能,尤其是 Prompt Engineering 这一类方法。

2024-07-29 19:31:53 2430

原创 Latent Consistency Models Synthesizing High-Resolution Images with Few-Step Inference

LCM 将 CM 拓展到了隐层文生图模型,实现了对 SD 的加速采样,LCM LoRA 更是火爆社区,成为最常用的 SD 加速采样模块之一。

2024-07-23 23:42:08 818

原创 Consistency Models

给定一个 PF ODE 的解轨迹xtt∈ϵTxt​t∈ϵT​,我们定义一个一致性函数fxtt→xϵfxt​t→xϵ​。一致性函数有一个重要的性质:自一致性,即对于同一个 PF ODE 解轨迹中的任意的输入参数对xttxt​t,其输出是一致的。自一致性可表示为:对于所有的tt′∈ϵTtt′∈ϵT,都有fxttfxt′t′fxt​tfxt′​t′。

2024-07-19 23:35:21 852

原创 Score-based Generative Modeling through Stochastic Differenctial Equations

Score-based Generative Modeling through Stochastic Differenctial Equations本文是扩散模型/基于分数的生成模型领域最重要的研究工作之一,提出了连续 SDE 形式的生成模型,将之前的都是以噪声扰动为核心思想的 SMLD 和 DDPM 都统一在 SDE 形式下。并指出了与 SDE 对应的 ODE 形式,以及其在精确似然计算、图像编辑、加速采样等方面的优良性质。极大地启发了后来的工作。背景本节首先回顾之前的两个生成模型:SMLD 和 D

2024-07-16 10:12:31 746

原创 DreamSim Learning New Dimensions of Human Visual Similarity using Synthetic Data

图像相似度是在业务应用上是很常见的。CLIP 监督粒度太粗,只关注高层语义,不太适合人眼感知相似度的计算。本文利用 SD 机造数据,并人工标注,是目前比较高效的图像相似度数据集构建方式。这也再次体现出有了足够强的条件生图模型之后,机造图像数据在监督粒度把控上的优势。通过控制生图提示词等条件,(有时需配合人工标注)我们可以灵活地构造出各种监督粒度的数据。

2024-07-15 22:41:12 825

原创 Kolors Effective Training of Diffusion Model for Photorealistic Text-to-Image Synthesis

Kolors 可以说是最近开源的文生图模型中最给力的一个了。从技术报告来看,改进也是很全面的,更强的中文文本编码器、机造的高质量文本描述、人标的高质量图片、强大的中文渲染能力,以及巧妙的 noise schedule 解决高分辨率图加噪不彻底的问题。可以说是目前主流的文生图训练技巧都用上了,实测效果也确实很不错。在看到 Kling 视频生成的强大表现,不得不让人赞叹快手的技术实力。

2024-07-12 00:48:52 1347

原创 InstructPix2Pix Learning to Follow Image Editing Instructions

InstructPix2Pix 是扩散模型指令编辑方向比较经典的工作。核心还是在监督数据的构建,灵活地运用了大语言模型强大的泛化能力和 Prompt2Prompt 保持两次生图布局构图一直的能力。

2024-07-10 14:39:32 928

原创 SDEdit GUIDED IMAGE SYNTHESIS AND EDITING WITH STOCHASTIC DIFFERENTIAL EQUATIONS

比较经典的 Img2Img 做法,关键是通过选择t0t_0t0​,来实现忠实性和真实性的权衡。

2024-07-09 18:21:24 1283

原创 Eyes Wide Shut Exploring the Visual Shortcomings of Multimodal LLMs

CLIP 使用自然语言作为图像预训练的监督信号,使用对比学习和大量图文对训练出了图文联合特征空间,无疑是一个里程碑式的工作。然而,CLIP 的训练信号来自于自然语言,是语义级别的监督,再加上网络图文对数据的文本描述不够详尽精确,导致 CLIP 对于细节视觉信息的把握比较差。更遗憾的是,这种源自于训练目标的固有的缺陷,是无法通过 scaling 模型和数据来解决的。本文通过找出 CLIP-blind pairs,探究了 CLIP 模型的缺陷,分析了现有主流 MLLM 将 CLIP 作为图像编码器带来的影响。

2024-07-08 17:12:00 1026

原创 Generative Modeling by Estimating Gradients of the Data Distribution

这篇 NCSN 的方法提出在 DDPM 之前,并且对 DDPM 的设计也有启发。更重要的是,笔者认为,基于得分的生成模型似乎更加直觉,更具有可解释性。从理解的角度来说,NSCN 更加顺畅。但是 DDPM 的效果似乎更好?因此一般认为 DDPM 是真正将 Diffusion 这一类方法做 work 的工作。宋飏博士在之后的 score based SDE 中也已经将 NCSN 和 DDPM 统一到了 SDE 的框架下。

2024-07-05 02:03:59 946

原创 Flow Matching For Generative Modeling

Flow Matching For Generative Modeling一、基于流的(Flow based)生成模型生成模型我们先回顾一下所谓的生成任务,究竟是想要做什么事情。我们认为,世界上所有的图片,是符合某种分布 pdata(x)p_{data}(x)pdata​(x) 的。当然,这个分布肯定是个极其复杂的分布。而我们有一堆图片 x1,x2,…,xm{x_1,x_2,\dots,x_m}x1​,x2​,…,xm​ ,则可以认为是从这个分布中采样出来的 mmm 个样本。我们通过训练希望得到一个

2024-06-20 21:16:23 11924

原创 Improved Denoising Diffusion Probabilistic Models

Improved Denoising Diffusion Probabilistic ModelsTL; DR:iDDPM 分析了 DDPM 形式化和训练过程的一些不足,并提出了可学习方差、余弦噪声计划、非均匀的时间步采样策略等多项改进。前置知识本文是针对 DDPM 的改进,首先来回顾一下 DDPM 的细节。定义给定数据分布 x0∼q(x0)x_0\sim q(x_0)x0​∼q(x0​) ,我们通过一个联合分布 q(x1,…,xT)q(x_1,\dots,x_T)q(x1​,…,xT​) 来定

2024-06-12 20:56:29 1018

auto_login.py

0积分 免费下载 东华大学校园网自动登录脚本(非selenium,可远程ssh操作),之前流传的东华大学校园网自动登录脚本都是使用自动化测试库selenium实现。虽然在图形界面可以完成自动登录的需求,但是当需要远程ssh操作链接时则无能为力了。本资源由实验室开发,通过requests库及重定向技术实现,单个py文件,预装python3即可使用。 有报错可联系博主

2021-08-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除