自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(396)
  • 资源 (1)
  • 收藏
  • 关注

原创 Linux下的ELF文件、链接、加载与库(含大量图文解析及例程)

Linux下的ELF文件、链接、加载与库链接是将将各种代码和数据片段收集并组合为一个单一文件的过程,这个文件可以被加载到内存并执行。链接可以执行与编译时,也就是在源代码被翻译成机器代码时;也可以执行于加载时,也就是被加载器加载到内存执行时;甚至执行于运行时,也就是由应用程序来执行。​ — CSAPP本文主要参考[原创] Linux环境下:程序的链接, 装载和库,[完结] 2020 南京大学

2021-10-06 23:14:49 9432 3

原创 Vision Transformer(ViT)PyTorch代码全解析(附图解)

Vision Transformer(ViT)代码全解析最近CV领域的Vision Transformer将在NLP领域的Transormer结果借鉴过来,屠杀了各大CV榜单。本文将根据最原始的Vision Transformer论文,及其PyTorch实现,将整个ViT的代码做一个全面的解析。对原Transformer还不熟悉的读者可以看一下Attention is All You Need原文,中文讲解推荐李宏毅老师的视频,个人觉得讲的很明白。话不多说,直接开始。下图是ViT的整体框架图,我们在

2021-07-14 17:56:46 58515 85

原创 PyTorch中的torch.nn.Parameter() 详解

PyTorch中的torch.nn.Parameter() 详解今天来聊一下PyTorch中的torch.nn.Parameter()这个函数,笔者第一次见的时候也是大概能理解函数的用途,但是具体实现原理细节也是云里雾里,在参考了几篇博文,做过几个实验之后算是清晰了,本文在记录的同时希望给后来人一个参考,欢迎留言讨论。分析先看其名,parameter,中文意为参数。我们知道,使用PyTorch训练神经网络时,本质上就是训练一个函数,这个函数输入一个数据(如CV中输入一张图像),输出一个预测(如输出这张

2021-07-14 16:21:09 75271 31

原创 Latent Consistency Models Synthesizing High-Resolution Images with Few-Step Inference

LCM 将 CM 拓展到了隐层文生图模型,实现了对 SD 的加速采样,LCM LoRA 更是火爆社区,成为最常用的 SD 加速采样模块之一。

2024-07-23 23:42:08 592

原创 Consistency Models

给定一个 PF ODE 的解轨迹xtt∈ϵTxt​t∈ϵT​,我们定义一个一致性函数fxtt→xϵfxt​t→xϵ​。一致性函数有一个重要的性质:自一致性,即对于同一个 PF ODE 解轨迹中的任意的输入参数对xttxt​t,其输出是一致的。自一致性可表示为:对于所有的tt′∈ϵTtt′∈ϵT,都有fxttfxt′t′fxt​tfxt′​t′。

2024-07-19 23:35:21 584

原创 Score-based Generative Modeling through Stochastic Differenctial Equations

Score-based Generative Modeling through Stochastic Differenctial Equations本文是扩散模型/基于分数的生成模型领域最重要的研究工作之一,提出了连续 SDE 形式的生成模型,将之前的都是以噪声扰动为核心思想的 SMLD 和 DDPM 都统一在 SDE 形式下。并指出了与 SDE 对应的 ODE 形式,以及其在精确似然计算、图像编辑、加速采样等方面的优良性质。极大地启发了后来的工作。背景本节首先回顾之前的两个生成模型:SMLD 和 D

2024-07-16 10:12:31 420

原创 DreamSim Learning New Dimensions of Human Visual Similarity using Synthetic Data

图像相似度是在业务应用上是很常见的。CLIP 监督粒度太粗,只关注高层语义,不太适合人眼感知相似度的计算。本文利用 SD 机造数据,并人工标注,是目前比较高效的图像相似度数据集构建方式。这也再次体现出有了足够强的条件生图模型之后,机造图像数据在监督粒度把控上的优势。通过控制生图提示词等条件,(有时需配合人工标注)我们可以灵活地构造出各种监督粒度的数据。

2024-07-15 22:41:12 615

原创 Kolors Effective Training of Diffusion Model for Photorealistic Text-to-Image Synthesis

Kolors 可以说是最近开源的文生图模型中最给力的一个了。从技术报告来看,改进也是很全面的,更强的中文文本编码器、机造的高质量文本描述、人标的高质量图片、强大的中文渲染能力,以及巧妙的 noise schedule 解决高分辨率图加噪不彻底的问题。可以说是目前主流的文生图训练技巧都用上了,实测效果也确实很不错。在看到 Kling 视频生成的强大表现,不得不让人赞叹快手的技术实力。

2024-07-12 00:48:52 912

原创 InstructPix2Pix Learning to Follow Image Editing Instructions

InstructPix2Pix 是扩散模型指令编辑方向比较经典的工作。核心还是在监督数据的构建,灵活地运用了大语言模型强大的泛化能力和 Prompt2Prompt 保持两次生图布局构图一直的能力。

2024-07-10 14:39:32 703

原创 SDEdit GUIDED IMAGE SYNTHESIS AND EDITING WITH STOCHASTIC DIFFERENTIAL EQUATIONS

比较经典的 Img2Img 做法,关键是通过选择t0t_0t0​,来实现忠实性和真实性的权衡。

2024-07-09 18:21:24 936

原创 Eyes Wide Shut Exploring the Visual Shortcomings of Multimodal LLMs

CLIP 使用自然语言作为图像预训练的监督信号,使用对比学习和大量图文对训练出了图文联合特征空间,无疑是一个里程碑式的工作。然而,CLIP 的训练信号来自于自然语言,是语义级别的监督,再加上网络图文对数据的文本描述不够详尽精确,导致 CLIP 对于细节视觉信息的把握比较差。更遗憾的是,这种源自于训练目标的固有的缺陷,是无法通过 scaling 模型和数据来解决的。本文通过找出 CLIP-blind pairs,探究了 CLIP 模型的缺陷,分析了现有主流 MLLM 将 CLIP 作为图像编码器带来的影响。

2024-07-08 17:12:00 753

原创 Generative Modeling by Estimating Gradients of the Data Distribution

这篇 NCSN 的方法提出在 DDPM 之前,并且对 DDPM 的设计也有启发。更重要的是,笔者认为,基于得分的生成模型似乎更加直觉,更具有可解释性。从理解的角度来说,NSCN 更加顺畅。但是 DDPM 的效果似乎更好?因此一般认为 DDPM 是真正将 Diffusion 这一类方法做 work 的工作。宋飏博士在之后的 score based SDE 中也已经将 NCSN 和 DDPM 统一到了 SDE 的框架下。

2024-07-05 02:03:59 652

原创 Flow Matching For Generative Modeling

Flow Matching For Generative Modeling一、基于流的(Flow based)生成模型生成模型我们先回顾一下所谓的生成任务,究竟是想要做什么事情。我们认为,世界上所有的图片,是符合某种分布 pdata(x)p_{data}(x)pdata​(x) 的。当然,这个分布肯定是个极其复杂的分布。而我们有一堆图片 x1,x2,…,xm{x_1,x_2,\dots,x_m}x1​,x2​,…,xm​ ,则可以认为是从这个分布中采样出来的 mmm 个样本。我们通过训练希望得到一个

2024-06-20 21:16:23 1786

原创 Improved Denoising Diffusion Probabilistic Models

Improved Denoising Diffusion Probabilistic ModelsTL; DR:iDDPM 分析了 DDPM 形式化和训练过程的一些不足,并提出了可学习方差、余弦噪声计划、非均匀的时间步采样策略等多项改进。前置知识本文是针对 DDPM 的改进,首先来回顾一下 DDPM 的细节。定义给定数据分布 x0∼q(x0)x_0\sim q(x_0)x0​∼q(x0​) ,我们通过一个联合分布 q(x1,…,xT)q(x_1,\dots,x_T)q(x1​,…,xT​) 来定

2024-06-12 20:56:29 750

原创 Understanding Diffusion Objectives as the ELBO with Simple Data Augmentation

VDM++ 在其前作 VDM 的基础上进一步在理论上分析了扩散模型中的 ELBO 目标。将得分匹配、噪声估计等训练目标通过不同的加权函数统一到 ELBO 目标中,并进一步掲示了当加权函数是单调函数时,不同的扩散模型训练目标相当于 ELBO 目标搭配上简单的数据扩增(加性高斯)。对后续许多扩散模型(如 SD3)的训练策略设计产生了重大影响。

2024-06-10 03:14:43 1011

原创 VDM Variational Diffusion Models

本文定义了信噪比函数SNRtαt2σt2SNRtαt2​σt2​,从变分下界的角度推导了扩散模型的损失函数。并对其中的扩散损失项在离散时间情形和连续时间情形下进行了推导,结合信噪比函数得出了一个极简洁的形式。进一步地,作者推导出在连续时间情形下,扩散模型规格(以 SNR 的形式)对扩散损失的影响仅体现在t0t=0t0和t1t=1t1两处端点上,而与中间的αtσtαt​σt​。

2024-06-06 14:46:51 668 1

原创 Common Diffusion Noise Schedules and Sample Steps are Flawed

现在有很多新的采样器,在推理生图时只使用很少的步数,就能达到不错的生图结果。现在一般是在训练时对全部TTT(如T1000T=1000T1000)步训练,在推理时只需要采样SSS(如S25S=25S25​) 步来生图。调整采样步数可以在推理生图时实现效率和质量的权衡。然而,现在很多少步数的采样器在时间步的选择上,并没有从最后一步开始(如下表所示)。

2024-05-31 01:07:55 889

原创 Imagen Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding

Imagen 是一种级联的 pixel-based 的图像生成模型,先生成 64x64 的小图,再经过两级超分模型,生成 256x256、1024x1024 的大图;scaling 文本编码器比 scaling 扩散生图模型带来的提升要显著得多。用纯文本预训练的超大语言模型,(相比于 CLIP 文本编码器)更适合作为文生图模型的文本编码器;动态阈值有助于解决 pixel-based 条件生成模型在生图时 CFG scale 太大导致的训练推理不匹配的问题;

2024-05-29 22:26:19 903

原创 From Parts to Whole A Unified Reference Framework for Controllable Human Image Generation

Parts2Whole 的两个关键技术点,一是密集的人体部位外观编码器,避免了只使用 CLIP 图像编码器导致特征倾向于高层语义特征的问题,丰富了纹理细节特征,对于精细的人体特征生成更友好。二是使用了(带掩码的)共享 KV 自注意力机制,来实现与参考图一致的定制化生成。

2024-05-27 12:56:25 864

原创 SDXL Improving Latent Diffusion Models for High-Resolution Image Synthesis

SDXL 三个主要的改进:1)更大的模型,这不必多说,已经是如今深度学习的趋势。2)微条件,这是一种比较巧妙的提升数据质量和数量的方式,更高效利用数据。3)引入 refine 精修模型,没具体评测过,不够貌似没什么人用呢。

2024-05-20 22:15:13 975

原创 Playground v2.5 Three Insights towards Enhancing Aesthetic Quality in Text-to-Image Generation

Playground v2.5 是目前开源的比较好的通用生成模型,其生图结果的美学质量确实更高,并且在语义理解、人体肢体、多分辨率等方面也相比 SDXL 有明显的提升。

2024-05-20 16:45:16 467

原创 Diffusion Inversion技术

Inversion 技术的两个关键目标是重构性能和编辑性能,既要与原图布局结构大致保持一致,又要能够按照新的 prompt 合理地编辑修改图中的语义内容。DDIM 本身是一种确定性的采样过程,十分适合作 Inversion,也是扩散模型 Inversion 的常用 baseline。当引入 CFG 文本条件控制后,重构编辑过程要求有较高的条件引导系数,使得问题进一步复杂。

2024-05-13 15:15:10 1363 1

原创 StoryDiffusion Consistent Self-attention for Long-range Image And Video Generation

Story Diffusion 第一阶段的 batch 内 KV 共享来实现图片彼此之间的交互,进而保证主题一致性。第二阶段先提取首尾帧特征并插值,处理后作为条件注入到生图过程中。第一阶段的 KV 共享的方式感觉不如 ConsiStory 的方式精妙,但是 ConsiStory 是为了背景的多样性选择了仅在主题区域内进行 KV 共享,Story Diffusion 的随机选图全局共享的方式,背景一致性也得到了一定保证,对后续的插帧视频生成更友好一些。

2024-05-06 17:20:43 1412

原创 MoA Mixture-of-Attention for Subject-Context Disentanglement in Personalized Image Generation

MoA 的方案虽然需要训练,但是训的是定制化生成的能力,而不是像 LoRA 一样只能训某一个 subject。同时,在训练阶段加入 subject mask 让模型学习,从而在生图阶段不需要再显式地加入 mask。整体相比于之前的多概念定制化方法(Mix of show, ConsiStory, OMG, CustomDiffusion)等看起来都要更优雅一些。

2024-04-28 21:28:03 896

原创 Mini-Gemini Mining the Potential of Multi-modality Vision Language Models

Mini-Gemini 通过 LLM 显式地改写出生图 prompt,并外挂 SDXL 进行图像生成,不同于之前直接嫁接 text embedding 的方案,实测效果还不错。更重要的是,生成自然语言生图的 prompt 具有更好的灵活性和可解释性,可以无缝接入其他的生图模型。另外笔者还有一个想法,能否将输入的图片通过 ip-adapter 等方式也作为生图的条件,从而实现定制化生图等。高分辨率的编码方法来理解图像细节和文字图等,也是一个技术改进,最近很多新发布 VLM 在做类似的工作。

2024-04-28 19:17:28 1139

原创 直接用表征还是润色改写?LLM用于文生图prompt语义增强的两种范式

LaVi-Bridge 是比较简单直接的连接 LLM 和 DM 的做法。使用 LLM 代替 CLIP 提供语义更完善准确的文本 embedding,虽然需要进行训练,但是 ELLA 的方案看起来是比较简洁的。但是比较可惜 ELLA-SDXL 不开源。RPG 中核心问题的解决方式就是利用 LLM 的推理能力,来对复杂 prompt 进行重写和分区域规划。因此该方法能否 work 的关键就在于所谓的 MLLM’s powerful reasoning ability 到底有没有那么 powerful。

2024-04-24 19:39:58 1160 2

原创 Prompt-to-Prompt Image Editing with Cross Attention Control

prompt2prompt 是扩散模型图像编辑领域非常有意义的一个工作,它通过替换编辑图像生图过程中的交叉注意力图,使得生成出的编辑图像与原始图像的空间布局保持一致。从而实现了仅需修改 prompt 的图像编辑。在之后的 InstructPix2Pix、OMG 等图像编辑方法中,都用到了这项技术。

2024-04-21 17:10:01 1008

原创 如何魔改 diffusers 中的 pipelines

diffusers 的 api 设计非常友好,我们可以通过 pipeline callback 和 custom pipeline 等方式定制化实现自己想要的功能,其中前者不用动底层代码,简单优雅,后者则是功能强大,现在最新的 AIGC 相关的论文基本都是通过 custom diffusion 的方式公开自己的源码,非常方便。

2024-04-07 19:21:00 1594

原创 OMG Occlusion-friendly Personalized Multi-concept Generation in Diffusion Models

想要在有交叠的情况下,精确地控制多个概念的属性特征,最近的几篇工作都是 ”垫图 + 区域分离重绘“ 的方案,OMG 这篇做的效果不错,分割图。不过笔者还有个问题:如果多个概念的基本语义类是一样的,比如两个 woman,这时候 zero-shot 分割模型怎么工作,怎么区分不同概念。最近的 ConsiStory 似乎也是受限于这个问题,对于相同语义类的多概念很难进行可控的个性化生成。期待有更好的解决方案。

2024-03-29 18:30:12 634

原创 DreamBooth Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation

DreamBooth 是 subject-driven 可控生成方向的一篇重要工作,后面各种 LoRA 的训练基本都使用 DreamBooth 的训练方法。

2024-03-24 23:08:07 869

原创 An Image is Worth One Word Personalizing Text-to-Image Generation using Textual Inversion

Textual Inversion 应该可以说是扩散模型时代最早的定制化概念生成的方法,效果不错,而且训练成本和模型保存成本极低。是一片很有意义的工作。

2024-03-24 19:06:07 1018

原创 ConsiStory Training-Free Consistent Text-to-Image Generation

ConsiStory 无需训练,在生图 batch 内共享 KV 实现 subject 一致的生成,为避免背景受到影响,仅在 attention mask 内共享。使用混合 query 特征和 attention dropout 削弱 KV 共享的影响,从而丰富布局和背景的多样性。通过 DIFT 特征找到对应的 patch 位置,使用 feature injection 进行细粒度的优化。

2024-03-24 10:50:42 1186 2

原创 InstantID Zero-shot Identity-Preserving Generation in Seconds

InstantID = IP-Adapter + (Face) ControlNet 看效果人脸的保真度还是不错的。但是仅能聚焦在人脸,可以试着搞搞人物全身特征的定制化。

2024-03-13 22:33:14 474

原创 IP-Adapter Text Compatible Image Prompt Adapter for Text-to-Image Diffusion Models

IP-Adapter 通过解耦的、独立的一支交叉注意力层将图像 prompt 引入到文生图模型中,是比较基础的、简单有效的方法。不过说是解耦,但是最后看着还是加起来的呢,只是多过了一个 cross attention 层。当然,只要要结合到 UNet 中去,终归是要么拼接,要么相加的。

2024-03-13 21:47:26 455

原创 Mix-of-Show Decentralized Low-Rank Adaptation for Multi-Concept Customization of Diffusion Models

针对多 concept 定制化生成中的角色身份丢失、属性绑定错乱等问题,优化 LoRA 训练、融合,以及分区域采样的技术细节,达到了目前看比较好的效果。

2024-03-13 16:57:08 927

原创 Fuyu-8B A Multimodal Architecture for AI Agents

Fuyu Decoder-only 的结构看起来更自然,并且可以处理任意分辨率图像,在实际中,对文字图、表格、文档的理解更好。

2024-03-05 15:51:54 579

原创 Q-Align Teaching LMMs for Visual Scoring via Discrete Text-Defined Levels

Q-Align 利用大模型对语言文本的理解能力,将图像质量打分工作转换为离散的质量等级词的生成,效果不错。大模型在图像质量评估方面的工作,可以关注一下 Q-Future,这个组一直深耕图像质量评估方向,在大模型时代,其发布的 Q-Bench、Q-Align 等工作都很不错。

2024-03-05 14:58:27 610

原创 Flamingo a Visual Language Model for Few-Shot Learning

Flamingo 的技术创新点很多,图文交错数据训练、multimodal few-shot / in-context learning、Perceiver Resampler、gated xattn dense 等。特别是图文交错数据实现了多模态的 few-shot / in-context learning。是很有价值的一篇多模态语言模型的工作。在 LLM 时代,也有很多多模态大模型会参考 resampler 的结构设计。

2024-03-04 18:26:00 1244

原创 LLaVA: Visual Instruction Tuning

2023 年上半年,从 GPT4 接口机造训练数据来训练自己的 LLM 已成为基本操作。而在没有 GPT4V 的时代,多模态的 instruction following 数据构造却一直是个难题。LLaVA 提出了一种结合图像的各种标注信息,使用 text-only 的 GPT4 来机造多模态 instruction following 数据的方法,并首次使用多模态的 instruction following 数据训练出了 LMM。

2024-02-27 20:57:29 1595

原创 DALL-E 系列 (1-3)

DALL-E 系列(1, 2, 3)看起来更像是一个产品编号,从技术上来看,并没有什么一致性。从 DALL-E 1 的 VQVAE,到 DALL-E 2 的 unCLIP,再到 DALL-E 3 的 LDM,从 DALL-E 系列核心技术的迭代中,反倒是可以看出业界主流图像生成技术的演进:从自回归生成,到 Diffusion 模型加 CLIP 文本引导,再到如今基本统一的 LDM。只是可惜从论文到技术报告再到单个技术点分享, OpenAI 似乎越来越不 “open”,很遗憾无法一窥 DALL-E 3 全貌。

2024-02-25 23:59:11 1293

auto_login.py

0积分 免费下载 东华大学校园网自动登录脚本(非selenium,可远程ssh操作),之前流传的东华大学校园网自动登录脚本都是使用自动化测试库selenium实现。虽然在图形界面可以完成自动登录的需求,但是当需要远程ssh操作链接时则无能为力了。本资源由实验室开发,通过requests库及重定向技术实现,单个py文件,预装python3即可使用。 有报错可联系博主

2021-08-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除