自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(359)
  • 资源 (1)
  • 收藏
  • 关注

原创 Linux下的ELF文件、链接、加载与库(含大量图文解析及例程)

Linux下的ELF文件、链接、加载与库链接是将将各种代码和数据片段收集并组合为一个单一文件的过程,这个文件可以被加载到内存并执行。链接可以执行与编译时,也就是在源代码被翻译成机器代码时;也可以执行于加载时,也就是被加载器加载到内存执行时;甚至执行于运行时,也就是由应用程序来执行。​ — CSAPP本文主要参考[原创] Linux环境下:程序的链接, 装载和库,[完结] 2020 南京大学

2021-10-06 23:14:49 7414 3

原创 Vision Transformer(ViT)PyTorch代码全解析(附图解)

Vision Transformer(ViT)代码全解析最近CV领域的Vision Transformer将在NLP领域的Transormer结果借鉴过来,屠杀了各大CV榜单。本文将根据最原始的Vision Transformer论文,及其PyTorch实现,将整个ViT的代码做一个全面的解析。对原Transformer还不熟悉的读者可以看一下Attention is All You Need原文,中文讲解推荐李宏毅老师的视频,个人觉得讲的很明白。话不多说,直接开始。下图是ViT的整体框架图,我们在

2021-07-14 17:56:46 48409 79

原创 PyTorch中的torch.nn.Parameter() 详解

PyTorch中的torch.nn.Parameter() 详解今天来聊一下PyTorch中的torch.nn.Parameter()这个函数,笔者第一次见的时候也是大概能理解函数的用途,但是具体实现原理细节也是云里雾里,在参考了几篇博文,做过几个实验之后算是清晰了,本文在记录的同时希望给后来人一个参考,欢迎留言讨论。分析先看其名,parameter,中文意为参数。我们知道,使用PyTorch训练神经网络时,本质上就是训练一个函数,这个函数输入一个数据(如CV中输入一张图像),输出一个预测(如输出这张

2021-07-14 16:21:09 67092 31

原创 DiT Scalable Diffusion Models with Transformers

DiT 的思路和做法都是比较直接的,就是用 Transformer 替换掉 UNet,并探索了其 scaling 能力和条件注入的结构。在 Diffusion 成功之后,以 DiT 为代表的,有很多用 Transformer 替换 UNet 的工作,但都没有受到很大的关注。究其原因,应该是 UNet 已经做的足够好,计算开销也低,使用 Transformer scaling 上去,虽然生成质量有所提升,但也没那么显著。

2024-02-19 14:39:57 973

原创 LDM:High-Resolution Image Synthesis with Latent Diffusion Models

Stable Diffusion 的影响力不用多说,本文主要提了 LDM 技术上的两个关键点。其中 VAE 感知压缩要首先深刻理解一系列自编码压缩方法(之前的文章都有介绍),然后搞懂 KL-reg 和 VQ-reg 两种正则化方式实际上相当于什么方法,以及为什么要加正则。交叉注意力的条件生成机制也是目前比较常用的,理解好交叉注意力机制本身是如何操作的即可,别的就是如何将不同的条件形式进行高效编码。

2024-02-18 20:02:44 818

原创 简单理解VQGAN

vqgan 利用 Transformer 和感知损失等技术,从生成质量和可控生成上对 vqvae 进行了很有意义的改进。vqvae、vqgan这一路压缩表征的方法在 LDM、MultiModal Transformer 中都有很多的应用。

2024-02-18 15:51:19 942

原创 深入理解vqvae

vqvae 首次在 cv 领域提出使用 vector quantize 来构建一个离散的 codebook,与其后续的 vqgan 等工作,被认为是 ”图片的 tokenizer“。将图片编码为 token,就能与 NLP token 的形式统一起来,一起在多模态 transformer 模型中进行训练。另外,vqvae encoder 将真实图片压缩为低维特征图, decoder 将低维特征图解码为真实图片的能力,在 ldm 中也大有用武之地,可以极大地降低训练/推理成本,提升生成结果的质量。

2024-02-06 12:58:46 1667

原创 Qwen-VL A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond

qwen-vl 相比于之前的 VLM 最大的亮点是加入了 grouding、OCR 这类更细粒度的、更有视觉特色的任务,而不只是简单的图片理解 VQA。并且 qwen-vl 很好地支持了图文交错的形式。笔者体验下来,目前来说,qwen-vl 是中文开源多模态大模型中最好的了。

2024-01-18 20:26:56 871

原创 De-Diffusion Makes Text a Strong Cross-Modal Interface

真是一篇有趣又有用的工作。利用自编码器的特点,将完整的图像语义提取到自然语言中,同时利用自然语言的灵活性,与多个前沿模型交互,出现很多有趣的应用。还有一个点,就是现有图文对数据中,文本描述通常比较简短,完全不够详尽。所谓“一图胜千言”,仅使用寥寥数语是很难完整地描述出图像的语义内容的。De-Diffusion 似乎提供了一个思路:利用自编码器需要重构原图的特点,强迫模型将图像语义特征压缩到自然语言文本中。

2024-01-15 16:53:47 940

原创 StableRep - Synthetic Images from Text-to-Image Models Make Strong Visual Representation Learners

这篇 StableRep 相当于是 SynCLR 的前身。首先提出了使用同一个 caption 生成的多张图片,作为对比学习中的多正例的方式。即 Multi-Positive Contrastive Learning。相比于 SynCLR,区别主要是 StableRep 的 caption 是现成的,从 CC3M 等数据集中直接拿的。而 SynCLR 的机造数据思想贯彻得更彻底,连 caption 也是使用 LLM 根据类别词表生成的。

2024-01-15 14:55:28 378

原创 Learning Vision from Models Rivals Learning Vision from Data

笔者最近一直在思考多模态的数据飞轮。图生文/文生图模型可以生成原始数据(可以加一些互联网真实数据),而 CLIP 又能过滤低质数据(可以加一些人工标注),高质量的数据又反过来可以用来训练图生文/文生图/CLIP模型,如此往复迭代,是否能实现数据质量和模型性能的共同提升呢?这篇文章在机造生成数据作出了一些探索。没有用任何真实数据,仅凭生成模型机造数据,就达到了视觉表征学习 SOTA 的性能。虽然最终训练的目标不是 CLIP 类的图文相关性模型,但是还是从机造数据训练模型的角度给了多模态数据飞轮的很多参考。

2024-01-15 00:06:14 991

原创 Understanding Contrastive RepresentationLearning through Alignment and Uniformity on the Hypersphere

align-uniform 是对比学习表征空间理论分析的一篇比较知名的工作。提出的 alignment 和 uniformity 的两种属性符合我们的直观认识,同时也提出了定量计算这两种属性的方法。是一篇非常有价值的工作。

2024-01-12 18:17:39 373

原创 SDE in diffusion models

SDE in diffusion models参考:https://www.bilibili.com/video/BV19M411z7hS/论文:Score-Based Generative Modeling through Stochastic Differential Equations本文被认为是 diffusion models 方向中最重要的一篇的论文。作者通过将之前的两类 diffusion models(DDPM、NCSN)通过 SDE 在理论上统一在了一起。注意虽然统一了两种形式,

2024-01-11 23:52:40 780

原创 DDAE: Denoising Diffusion Autoencoders are Unified Self-supervised Learners

DDAE 尝试将 diffusion 模型看作一种去噪自编码器,来将其中间层激活值作为表征,处理分类任务。并进行了超参搜索和表征空间的研究。

2023-12-29 16:04:47 417

原创 score-based model介绍

同为扩散模型。score-based model 在很多地方与 DDPM 非常相近(yang song 后来的文章也通过 SDE 统一了这两种形式)。通过理解两个关键问题。score-based model 的许多做法似乎有更好的解释性。如何采样?通过加不同程度的高斯噪声来权衡 score 估计准确性和数据分布真实性。如何估计 score?估计加入的噪声就是估计 score。

2023-12-27 23:28:00 881

原创 DDIM详解

DDIM详解参考:https://www.bilibili.com/video/BV1VP411u71p/虽然 DDIM 现在主要用于加速采样,但他的实际意义远不止于此。本文将首先回顾 DDPM 的训练和采样过程,再讨论 DDPM 与 DDIM 的关系,然后推导 DDIM 的采样公式,最后给出几个不同的理解 DDIM 的角度。DDPM回顾DDPM 实际是建模两个分布:diffusion 过程的分布 q(xt∣x0)q(x_t|x_0)q(xt​∣x0​) 、q(xt∣xt−1)q(x_t|x_{

2023-12-25 22:53:37 533

原创 全面理解Stable Diffusion采样器

在生成图片时,Stable Diffusion 会先在隐层空间(latent space)中生成一张完全的噪声图。噪声预测器会预测图片的噪声,将预测出的噪声从图片中减去,就完成了一步。重复该过程,最终将会得到清晰的图片。由于 Stable Diffusion 在每一步都会产生一个新的图像样本,因此去噪的过程被也被称为采样。采样过程所使用的方法被称为采样方法或采样器。采样器负责执行去噪步采样只是 Stable Diffusion 模型中的一部分。

2023-12-24 14:33:56 1500

原创 DDPM详解

DDPM详解参考 https://www.bilibili.com/video/BV1pa411u7G3/ 系列DDPM 可以分为 Diffusion 和 Reverse 两个阶段。其中 Diffusion 阶段通过不断地对真实图片添加噪声,最终得到一张噪声图片。而 Reverse 阶段,模型需要学习预测出一张噪声图片中的噪声部分,然后减掉该噪声部分,即:去噪。随机采样一张完全噪声图片,通过不断地去噪,最终得到一张符合现实世界图片分布的真实图片。以下分别介绍两个阶段的具体原理与公式推导。Diffu

2023-12-21 00:20:18 870

原创 LVM Sequential Modeling Enables Scalable Learning for Large Vision Models

LVM 是一篇很有价值的工作,找到一种方式统一了视觉数据,并进行预测下一个视觉 token 的自回归式训练。证明了不借助其他模态的数据(如文本),纯视觉视觉也有机会涌现出智能。

2023-12-20 23:53:39 947

原创 T2I-Adapter Learning Adapters to Digout More Controllable Ability for Text-to-Image Diffusion Models

T2I-Adapter 保持预训练 SD 的参数不动,通过为不同的空间结构条件图训练一个轻量的 adapter,实现了对生成结果的空间结构控制和空间色彩控制。

2023-12-16 13:11:29 83

原创 ControlNet Adding Conditional Control to Text-to-Image Diffusion Models

ControlNet 的影响力不言而喻,我们终于能对生成结果的空间位置有精确的控制,而不需要再一次次的碰运气。ICCV 2023 Best Paper 实至名归。

2023-12-15 23:10:26 188

原创 ControlNet on diffusers

参考:https://huggingface.co/docs/diffusers/using-diffusers/controlnet v0.24.0ControlNet 通过输入给 diffusion 模型一个额外的输入图作为条件,来控制生成图的结果。这个条件输入图可以是各种形式,如 canny 边缘、用户的手稿、人体姿态、深度图等。这无疑非常有用,我们终于能更好地控制生成图的结果了,而无需再去反复调一些文本 prompt 或去噪步数之类的参数来抽奖。

2023-12-15 00:01:04 127

原创 DeCap DECODING CLIP LATENTS FOR ZERO-SHOT CAPTIONING VIA TEXT-ONLY TRAINING

文章提出的 Projection Decoding 的方式来弥合 CLIP text/image embedding 之间的 modality gap 还是很有意思的。可能也能做图像的生成?现在 SD 都是拿 CLIP text encoder 来做文本引导,这篇看下来直接拿 image embedding 做应该是不行了,但可能拿 PD 做个映射,也能有结果?

2023-12-13 19:32:03 117

原创 Classifier Guidance 与 Classifier-Free Guidance

DDPM 终于把 diffusion 模型做 work 了,但无条件的生成在现实中应用场景不多,我们终归还是要可控的图像生成。本文简要介绍两篇关于 diffusion 模型可控生成的工作。其中 Classifier-Free Guidance 的方法还是现在多数条件生成 diffusion 模型的主流思路。

2023-12-13 15:28:58 1120 3

原创 RCG Self-conditioned Image Generation via Generating Representations

在计算机视觉领域,自监督表征学习(对比学习 / 图像掩码建模)基本已经摆脱了人工标注数据的束缚,迈入自监督学习的新时代。而在图像生成领域,还是需要大量的带标签(text/label)的图文对。本文尝试根据自监督表征,来进行自条件的图像生成,性能直逼有条件生成,可以说是接近弥合了这一 gap。从方法的角度来看,是很有意思的一篇工作,结合视觉自监督表征,实现了无标注、无文本条件的生成。唯一遗憾就是方法本身看起来不太简洁,不熟悉几篇前置工作的话,理解起来还是要稍微费点劲儿的。

2023-12-12 16:07:33 337 2

原创 using dapers on diffusers: Dreambooth, Texual Inversion, LoRA and IP-Adapter

参考自:https://huggingface.co/docs/diffusers/using-diffusers/loading_adapters如今,对于 diffusion 模型,有许多高效的训练技术来微调一个定制化的模型,能够生成指定的物体 (object) 或者指定的风格 (style)。每种不同的训练技术在训练结束后,会得到不同的 adapter 模型。

2023-12-10 20:10:09 468 2

原创 Textual Inversion on diffusers

参考自官方文档:https://huggingface.co/docs/diffusers/training/textual_inversion_inference、https://huggingface.co/docs/diffusers/training/text_inversion?

2023-12-09 22:01:57 223

原创 diffusers pipeline拆解:理解pipelines、models和schedulers

翻译自:https://huggingface.co/docs/diffusers/using-diffusers/write_own_pipeline v0.24.0diffusers 设计初衷就是作为一个简单且易用的工具包,来帮助你在自己的使用场景中构建 diffusion 系统。diffusers 的核心是 models 和 schedulers。而则将这些组件打包到一起,从而可以简便地使用。

2023-12-08 14:04:16 525 1

原创 Stable Diffusion XL on diffusers

翻译自:https://huggingface.co/docs/diffusers/using-diffusers/sdxl v0.24.0 非逐字翻译本文将介绍如何使用 diffusers 进行 text-to-image、image-to-image 和 inpainting。

2023-12-06 00:24:06 519

原创 CLIP微调方式

以学习 prompt 的方式来进行少样本学习,性能提升的同时还能保持 CLIP 模型本身参数不动。挺有用的一篇工作,虽然这种 prompt 的方式在 NLP 中早就有了,但应用到多模态 CLIP 中还是有一些意义的。

2023-10-12 23:16:05 1261

转载 PyTorch的自动混合精度(AMP)

我们知道神经网络框架的计算核心是 Tensor,也就是那个从 scaler -> array -> matrix -> tensor 维度一路丰富过来的 tensor。可以看到默认创建的 tensor 都是 FloatTensor 类型。由此可见,默认的 Tensor 是 32-bit floating point,这就是 32 位浮点型精度的 Tensor。自动混合精度的关键词有两个:自动、混合精度。混合精度。

2023-08-01 20:15:55 224

原创 分布式训练数据并行极致优化:ZeRO

随着 ChatGPT 的爆火,大模型成为了近些年人工智能的研究热点。大模型能力惊艳,但是训练起来成本也不小。大模型,顾名思义,最大的特点就是 “大”。这里的 “大” 通常指的就是模型的参数量大。因此,在分布式训练中,如何利用有限的显存训练更大的模型就是重点。分布式的训练的常用范式包括数据并行和模型并行,其中模型并行又包括张量并行和流水线并行。Megatron-ML 等框架中实现的的张量并行已经是是训练大模型的标配,但是数据并行作为最简洁、最易理解、最易实现的分布式训练范式,近些年还是有了完善的优化。

2023-07-27 08:21:36 579

转载 分布式训练——集合通信及其通信原语

集合通信(Collective Communications)是一个进程组的所有进程都参与的全局通信操作,其最为基础的操作有 发送send、接收receive、复制copy、组内进程栅障同步Barrier以及节点间进程同步(signal +wait ),这几个最基本的操作经过组合构成了一组通信模板也叫通信原语,比如:1对多的广播broadcast、多对1的收集gather、多对多的收集all-gather、1对多的发散scatter、多对1的规约reduce、多对多的规约all-reduce、组合的规约与发

2023-07-16 23:21:29 760

原创 Python中的Iterable、Iterator、Generator详解

Python中的Iterable、Iterator、Generator详解

2023-07-02 15:42:11 389

转载 【Python】Python的装饰器机制及注册器应用

【Python】Python的Registry机制

2023-06-06 22:20:19 525 2

翻译 [翻译] 图解Stable Diffusion

[翻译] 图解Stable Diffusion

2023-03-28 17:43:47 1492 1

原创 使用docker构建自己的机器学习开发环境

使用docker构建自己的机器学习开发环境

2023-03-15 15:58:19 680

原创 InstructGPT方法简读

InstructGPT方法简读

2023-03-07 18:54:56 1187

原创 自监督表征预训练之对比学习

自监督表征预训练之对比学习

2023-02-23 23:15:51 764

原创 自监督表征预训练之掩码图像建模

自监督表征预训练之掩码图像建模

2023-02-20 13:03:09 2068

auto_login.py

0积分 免费下载 东华大学校园网自动登录脚本(非selenium,可远程ssh操作),之前流传的东华大学校园网自动登录脚本都是使用自动化测试库selenium实现。虽然在图形界面可以完成自动登录的需求,但是当需要远程ssh操作链接时则无能为力了。本资源由实验室开发,通过requests库及重定向技术实现,单个py文件,预装python3即可使用。 有报错可联系博主

2021-08-10

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除