Adenialzz
码龄6年
关注
提问 私信
  • 博客:1,680,350
    社区:80
    1,680,430
    总访问量
  • 266
    原创
  • 4,313
    排名
  • 1,530
    粉丝
  • 33
    铁粉

个人简介:Keep Learning.

IP属地以运营商信息为准,境内显示到省(区、市),境外显示到国家(地区)
IP 属地:北京市
  • 加入CSDN时间: 2019-04-23
博客简介:

weixin_44966641的博客

查看详细资料
  • 原力等级
    当前等级
    9
    当前总分
    7,793
    当月
    123
个人成就
  • 获得3,805次点赞
  • 内容获得540次评论
  • 获得10,393次收藏
  • 代码片获得67,739次分享
创作历程
  • 4篇
    2025年
  • 60篇
    2024年
  • 31篇
    2023年
  • 151篇
    2022年
  • 167篇
    2021年
成就勋章
TA的专栏
  • 技术分享
    3篇
  • 模型部署
    27篇
  • openmmlab
    5篇
  • diffusion
    1篇
  • Python
    29篇
  • shell
    19篇
  • Misc
    41篇
  • Linux
    42篇
  • docker
    9篇
  • 自然语言处理
    17篇
  • 计算机视觉
    25篇
  • PyTorch
    37篇
  • 机器学习
    27篇
  • 目标检测
    11篇
  • MLSys
    6篇
  • 论文简析
    9篇
  • 数据结构与算法
    14篇
  • 生成
    1篇
  • C++
    44篇
  • cuda
    5篇
  • OpenCV
    5篇
  • GPU
    30篇
  • issues
    13篇
  • 计算机系统
    19篇
  • 计算机网络
    1篇
  • 图像处理
  • tvm
    10篇
  • 树莓派
    6篇
  • utils
    3篇
  • Java
    3篇
  • 编译原理
    7篇
  • NJU-JYY-OS
    9篇
兴趣领域 设置
  • 人工智能
    opencv计算机视觉神经网络pytorch图像处理
创作活动更多

新星杯·14天创作挑战营·第9期

这是一个以写作博客为目的的创作活动,旨在鼓励大学生博主们挖掘自己的创作潜能,展现自己的写作才华。如果你是一位热爱写作的、想要展现自己创作才华的小伙伴,那么,快来参加吧!我们一起发掘写作的魅力,书写出属于我们的故事。我们诚挚邀请你们参加为期14天的创作挑战赛! 注: 1、参赛者可以进入活动群进行交流、分享创作心得,互相鼓励与支持(开卷),答疑及活动群请见 https://bbs.csdn.net/topics/619626357 2、文章质量分查询:https://www.csdn.net/qc

475人参与 去参加
  • 最近
  • 文章
  • 代码仓
  • 资源
  • 问答
  • 帖子
  • 视频
  • 课程
  • 关注/订阅/互动
  • 收藏
搜TA的内容
搜索 取消

DPO 推导及其问题讨论

DPO 通过巧妙的推导,整合了 RLHF 的两阶段(RM + PPO)训练流程,直接根据偏好数据进行优化,大大简化了训练流程。但也由于缺少在线采样和打分的过程,探索能力有限,性能稍逊于 PPO/GRPO 等 RL 算法,对偏好数据集的质量要求更高。
原创
发布博客 前天 17:06 ·
589 阅读 ·
5 点赞 ·
0 评论 ·
4 收藏

Qwen2.5 VL 通读

Qwen 系列比较稳健,一直是每次都有一定创新,且一直保持开源。现在应该是全球范围内(最)领先的开源多模态模型了,最近几个 VLM R1 相关的项目基本全都是用 Qwen 2/2.5 VL 作为基座,都取得了不错的结果。
原创
发布博客 2025.03.24 ·
777 阅读 ·
9 点赞 ·
0 评论 ·
24 收藏

NaViT:训练任意分辨率和长宽比的 ViT

仅从结构上来说,ViT 要支持任意分辨率、任意长宽比输入图像,只要位置编码是可外推的绝对位置编码就行了,现在来看比较常用的是苏神的 2D RoPE,Qwen 2/2.5 VL 中就采用了这种方式。NaViT 主要是将 NLP 训练中的 sequence packing 引入了过来,将多个长度不一的 token 序列放到一个 sequence 里,并对 self attention 进行 masking 避免不同图片之间的干扰。(不过我看大部分训练库都没实现这个?不知道哪里能找到参考实现。
原创
发布博客 2025.03.14 ·
802 阅读 ·
10 点赞 ·
0 评论 ·
10 收藏

Flash Attention 算法简介

Flash Attention,是近几年 MLSys 领域最重要的工作之一。它考虑到 self attention 在 GPU 上计算时的 I/O 特性,通过 tiling 的思想对 self attention 过程中的矩阵乘法、softmax 等操作进行分块处理,使得每个块的计算都能在 GPU SRAM 内部完成,减少对 GPU HBM 的访存开销,大大提升了 self attention 的计算速度,并且能保证最终结果与标准 self-attention 一致。同时,采用 recompute 的方法,
原创
发布博客 2025.03.12 ·
1007 阅读 ·
27 点赞 ·
0 评论 ·
16 收藏

Rectified Flow 原理简介与示例代码解读

Rectified Flow 直接在两分布间插值构建了一种新的扩散模型形式,在简化形式的同时期望实现 “走直线” 的采样轨迹,从而减少采样步数,加快生图速度,这种形式已经在 SD3、Flux 等最新的图像生成中得到了验证和应用。本文还进一步提出了 Reflow 方法,通过训练好的模型的预测结果来为新模型的训练构造样本配对,从而能够进一步拉直采样轨迹,提高低步数下的采样质量。并为理解扩散模型蒸馏提供了一种新的角度。
原创
发布博客 2024.12.28 ·
1404 阅读 ·
5 点赞 ·
2 评论 ·
12 收藏

Flux Tools 结构简析

在基础模型结构切换到 (MM-)DiT 之后,Flux 官方选择通过拼接条件 token 来实现条件控制,这似乎与 MM-DiT 直接将文本作为输入来实现条件控制的设计思路一脉相承。在 Flux Tools 发布之前,第三方的 ControlNet、IP Adapter 却还是沿用之前 UNet 时代的外挂 Adapter 的方案。在 DiT 架构上,这两种条件控制方式相比有何优劣?实测条件控制效果与出图质量如何,兼容性、可插拔性方面是否会受到影响?在实际应用或训练时应该如何选择?都是仍待探究的问题。
原创
发布博客 2024.12.18 ·
1047 阅读 ·
11 点赞 ·
0 评论 ·
11 收藏

扩散模型设计选项的全面拆解与分析:EDM

以上我们已经将整个扩散模型的设计空间(包括训练过程、采样过程)的所有规格可选项全部梳理出来了。采样sts(t)st:缩放因子σt\sigma(t)σt:噪声的标准差ti\{t_i\}ti​:离散化的步长ODE Solver:所选用的 ODE 求解器训练cskipσcskip​σ:用于调制跳跃连接;coutσcout​σ:输出缩放因子;cinσcin​σ:输入缩放因子;cnoiseσcnoise​σ:噪声条件化λ。
原创
发布博客 2024.12.13 ·
1432 阅读 ·
10 点赞 ·
0 评论 ·
10 收藏

Diffusion Transformer模型结构解析(DiT、SD3、Flux)

从 UNet 迁移到 DiT,可以利用 Transformer 模型的 scaling 能力,通过增大参数量来提升出图的质量。在这个迁移过程中,我们需要考虑 Transformer 应用于扩散模型时的 patchify、positional encoding、conditioning 等几个重要环节。DiT 首先提出,确立了 patchify 的方法,并实验得到 adaLN 是比较适合 Diffusion Transformer 的 conditioning 方式;
原创
发布博客 2024.11.14 ·
2540 阅读 ·
13 点赞 ·
1 评论 ·
35 收藏

扩散模型对抗蒸馏:ADD 和 Latent-ADD

ADD 和 LADD 是 SD 系列同步推出的模型加速方法,结合对抗训练和蒸馏训练,提高模型的生图速度的同时兼顾生成质量,分别训练出了 SDXL-Turbo、SD3-Turbo 等模型,在开源加速模型中有比较大的影响力。
原创
发布博客 2024.10.21 ·
1279 阅读 ·
10 点赞 ·
0 评论 ·
22 收藏

CFG 蒸馏:On Distillation of Guided Diffusion Models

CFG 能够很好地在生图质量和多样性之间进行权衡,但是两次模型推理的开销确实太大,将这个调节参数蒸馏到模型内部是一个很好的想法,能够有效提高条件图的速度。最近的 Flux dev 也是对 Flux pro 进行了 CFG 蒸馏,不知是不是就是使用的本文方法。
原创
发布博客 2024.10.15 ·
1409 阅读 ·
15 点赞 ·
0 评论 ·
26 收藏

CTM:从任意时刻到任意时刻的扩散模型蒸馏方法

CTM 也是扩散模型蒸馏的一篇经典工作,训练任意时刻到任意时刻的跳步能力,从而改善了 CM 中多步生成的累积误差问题,实现了生成速度和多步采样的质量之间更好地权衡。
原创
发布博客 2024.10.13 ·
1310 阅读 ·
19 点赞 ·
0 评论 ·
9 收藏

渐进蒸馏和v-prediction

早期提出的渐进蒸馏是一种比较直觉的扩散模型步数蒸馏方法,其提出的 v-prediction 在后来也有广泛的应用。
原创
发布博客 2024.10.10 ·
1609 阅读 ·
17 点赞 ·
0 评论 ·
13 收藏

基于Diffusion的图像修复方法

整体来说,基于 Diffusion 的 inpating 方法可以分为无需训练和需要训练两个大类。其中无需训练的方法主要是根据 mask 来调整采样策略,将掩码区域的去噪生成结果与掩码外区域的加噪结果进行混合(blend)。而需要训练的方法又可分为微调模型本身和添加额外的网路分支两类。核心就是更精细的像素级控制。PowerPaint 则通过设置可学习的 prompt,进一步实现了多功能的 inpainting 模型。无需训练调整采样策略Repaint需要训练微调。
原创
发布博客 2024.09.26 ·
2105 阅读 ·
20 点赞 ·
0 评论 ·
37 收藏

Honeybee Locality-enhanced Projector for Multimodal LLM

HoneyBee 提出了两种新颖的 MLLM Adapter:C-Abstractor 和 D-Abstractor,同时满足压缩 token 个数和保持空间信息两点要求,并且性能也更进一步。但个人感觉好像还是 Adaptive AvgPool 在发挥作用?感觉可以再对比一下 Linear + Adaptive AvgPool 的性能和推理时间。
原创
发布博客 2024.08.13 ·
1025 阅读 ·
28 点赞 ·
1 评论 ·
28 收藏

利用扩散模型的反馈优化图片理解模型

将判别模型的输出作为文生图模型的条件输入,利用文生图模型的梯度反馈来更新判别模型,从而改善判别模型的表征质量。有点 GAN 反着用的感觉。GAN 是判别模型倒逼生成模型生成更加真实的样本,而 DIffTTA 是生成模型倒逼判别模型生成质量更高的表征。但是文生图模型的语义理解能力也是来自 CLIP 的呀,为什么反过来还能提升 CLIP 的表征质量呢?感觉 DIVA 还是靠密集条件的策略?不知道哪里有更多理论分析。
原创
发布博客 2024.08.01 ·
1395 阅读 ·
15 点赞 ·
0 评论 ·
17 收藏

Weights2wights Interpreting the Weight Space of Customized Diffusion Models

本文提出的 Weights2weights 方法是基于三个紧密相关的基础方法:LDM、DreamBooth、LoRA。我们首先简要介绍这三个基础方法。LDMLDM(Latent Diffusion Model)通过引入 VAE 将扩散模型做在了隐空间,从而降低训练和推理成本。并通过交叉注意力将文本 prompt 条件注入到去噪扩散模型中。
原创
发布博客 2024.07.30 ·
575 阅读 ·
3 点赞 ·
0 评论 ·
6 收藏

CLIP微调方式

本文介绍了 Prompt Engineering 和 Adapter 两类 CLIP 微调方法。CLIP 可以说是多模态领域奠基之作,其借助文本塔构建的图文多模态联合语义空间赋予了图片理解更多的灵活性和想象空间,使得视觉领域的 zeroshot 分类成为了可能。并且,这种自然语言带来的灵活性在微调时也提供了更多的可能,尤其是 Prompt Engineering 这一类方法。
原创
发布博客 2024.07.29 ·
2072 阅读 ·
20 点赞 ·
0 评论 ·
22 收藏

Latent Consistency Models Synthesizing High-Resolution Images with Few-Step Inference

LCM 将 CM 拓展到了隐层文生图模型,实现了对 SD 的加速采样,LCM LoRA 更是火爆社区,成为最常用的 SD 加速采样模块之一。
原创
发布博客 2024.07.23 ·
768 阅读 ·
28 点赞 ·
0 评论 ·
13 收藏

Consistency Models

给定一个 PF ODE 的解轨迹xtt∈ϵTxt​t∈ϵT​,我们定义一个一致性函数fxtt→xϵfxt​t→xϵ​。一致性函数有一个重要的性质:自一致性,即对于同一个 PF ODE 解轨迹中的任意的输入参数对xttxt​t,其输出是一致的。自一致性可表示为:对于所有的tt′∈ϵTtt′∈ϵT,都有fxttfxt′t′fxt​tfxt′​t′。
原创
发布博客 2024.07.19 ·
797 阅读 ·
7 点赞 ·
0 评论 ·
25 收藏

Score-based Generative Modeling through Stochastic Differenctial Equations

Score-based Generative Modeling through Stochastic Differenctial Equations本文是扩散模型/基于分数的生成模型领域最重要的研究工作之一,提出了连续 SDE 形式的生成模型,将之前的都是以噪声扰动为核心思想的 SMLD 和 DDPM 都统一在 SDE 形式下。并指出了与 SDE 对应的 ODE 形式,以及其在精确似然计算、图像编辑、加速采样等方面的优良性质。极大地启发了后来的工作。背景本节首先回顾之前的两个生成模型:SMLD 和 D
原创
发布博客 2024.07.16 ·
707 阅读 ·
5 点赞 ·
0 评论 ·
5 收藏
加载更多