科研
文章平均质量分 80
多恩Stone
聚焦时尚设计领域的高可用 AIGC,现于香港理工-人工智能设计研究所搬砖
展开
-
【Domain Generalization(2)】领域泛化在文生图领域的工作之——PromptStyler(ICCV23)
大规模预训练模型已观察到多种领域,其联合视觉语言空间中,文本特征可有效表示相关图像特征,且尽管存在模态差异,但存在跨模态迁移性现象,即可以使用文本特征训练分类器并使用图像特征进行推理,这为解决无源域数据的领域泛化问题提供了思路。原创 2024-12-31 18:06:55 · 932 阅读 · 0 评论 -
【Domain Generalization(1)】增量学习/在线学习/持续学习/迁移学习/多任务学习/元学习/领域适应/领域泛化概念理解
该系列是对 Domain Generalization 的学习记录,本文详细介绍了 DG 的相关概念和代表性工作。原创 2024-12-31 17:01:22 · 1157 阅读 · 0 评论 -
【问题解决与原理解释】Attempting to unscale FP16 gradients.
在使用 accelerate 训练模型时遇到以下报错,其实本质是没有理解训练过程中的各种精度设置的原理,本文将从等基础概念进行解释。原创 2024-08-18 18:03:11 · 2648 阅读 · 0 评论 -
【可控图像生成系列论文(六)】ECCV24-Glyph-ByT5 微软亚研院、清华、北大合作工作(上)
现有 “文字渲染的不准确” 的问题,主要归因于 Text Encoder 的局限。例如,最初的 CLIP 文本编码器是为。层面的广泛视觉语言语义对齐而定制的,而 T5/ByT5 文本编码器则侧重于深度语言理解。然而,尽管最近的研究表明 T5/ByT5 文本编码器有利于视觉文本渲染任务,但两者都。缺乏定制的文本编码器设计可能会导致各种应用中的文本渲染不准确。原创 2024-08-08 17:32:43 · 1020 阅读 · 0 评论 -
【扩散模型思考记录(二)】什么是隐空间?为什么要引入隐空间?
引入隐变量空间(latent space)是生成模型中常用的技术,如变分自编码器(VAE)和生成对抗网络(GAN)。通过这种方法,可以将复杂的高维数据分布映射到一个相对简单的低维隐变量空间,从而简化采样过程。引入隐变量空间的核心思想是通过一个相对简单的低维表示来捕捉数据的复杂分布。这使得我们可以从标准分布中采样,并通过生成函数将其映射回原始数据空间,从而生成符合复杂分布的新样本。这种方法不仅简化了采样过程,还提高了生成数据的质量和多样性。原创 2024-07-31 15:46:25 · 1402 阅读 · 0 评论 -
【扩散模型思考记录(一)】图像生成的本质是什么?什么是适合采样的复杂分布?
适合采样的复杂分布指的是一种能够真实且高效地生成新样本的分布。高保真度生成的样本应与真实数据集中的样本相似度高,能够保留数据集的各种重要特征和模式。高多样性生成的样本应具有足够的多样性,能够涵盖数据集中的不同模式和变异性,而不是仅生成几种重复的样本。平滑性分布应当是平滑的,即在高维空间中没有过多的奇异点或异常值。这样的分布有助于模型在未见过的数据点上进行合理的插值和外推。可采样性分布应该是容易采样的。即我们能够设计有效的算法,从这个分布中高效地生成样本。原创 2024-07-31 15:40:08 · 580 阅读 · 0 评论 -
【可控图像生成系列论文(五)】ControlNet 和 IP-Adapter 之间的区别有哪些?
在 ControlNet 中,由于通过残差连接(红框的部分)将输入直接添加到 SD Decoder Block 中,以便在训练深度神经网络时防止梯度消失问题。IP-Adapter 通常通过一种适配器模块来实现,该模块能够动态调整生成模型的参数或特征,以适应不同的输入条件。条件输入则大小的限制。下图右边是 ControlNet,条件输入需要和最终输出的大小保持 pixel-level 的一致。下图左边是 IP-Adapter,条件输入可以和基础输入、最终输出的大小不一致。原创 2024-06-27 21:54:55 · 1364 阅读 · 0 评论 -
【已解决】ImportError: cannot import name ‘MultiControlNetModel‘ from ‘diffusers.pipelines.controlnet‘
IP-Adapter 环境配置中的小坑原创 2024-06-25 16:37:58 · 1173 阅读 · 0 评论 -
【扩散模型(二)】IP-Adapter 从条件分支的视角,快速理解相关的可控生成研究
上一篇文章提到可以从两个分支来看 Stable Diffusion1重建分支(reconstruction)负责从噪声中逐步重建出清晰的图像。条件分支(condition)则引入额外的信息或条件,指导图像的生成过程,使得生成结果符合特定的要求。从该视角,可以快速地理解基于 SD 的类似可控生成模型,重点都是在修改 condition 分支的部分,通过修改 corss-attention 中的 QKV 来更好地引入控制条件。原创 2024-06-25 14:38:08 · 1727 阅读 · 1 评论 -
【How2Research(一)】深度学习方向的论文有 idea,如何工程实现?
该系列将收集整理各科研大佬的 Research 方法论。本文为知乎上高赞回答的总结梳理,并制作脑图如下,以便于理解消化。Step1: 选 baseline 论文1.1 有开源代码1.2 发表时间近2-3年1.3 论文公式清晰Step2: 深入 baseline 代码2.1 配置环境Step3: 搭建自己的 pipeline。原创 2024-06-25 11:00:52 · 1088 阅读 · 0 评论 -
【可控图像生成系列论文(三)】北大 Context-Aware Unsupervised Text Stylization论文解读1
本篇将介绍来自 ACM MM 2018 的一篇字体风格化的可控生成工作《Context-Aware Unsupervised Text Stylization》,主要功能是无监督的文字风格化,输入为(a)。原创 2024-06-24 21:23:50 · 1087 阅读 · 0 评论 -
【AIGC 概念理解】Zero-Shot,One-Shot,Few-Shot,In-Context Learning,Tuning-Free/Training-Free/Inference-Only
Zero-shot learning是一种极端的少样本学习()方法,它使得模型能够在完全没有见过目标类样本的情况下进行预测。模型通过在训练阶段学习到的特征和类描述之间的关系来实现这一点。原创 2024-06-23 17:13:18 · 4770 阅读 · 0 评论 -
【可控图像生成系列论文(二)】MimicBrush 港大、阿里、蚂蚁集团合作论文解读2
上篇简要介绍了论文的整体流程和方法,本文则将就整体方法、模型结构、训练数据和纹理迁移进行详细介绍。原创 2024-06-20 22:59:08 · 1477 阅读 · 2 评论 -
【gradio 极速入门(一)】已解决,TypeError: init() got an unexpected keyword argument ‘source‘
说明 source 不是 gr.Image 里的关键字参数,这可能是 gradio 相关的包版本不兼容导致。则可以通过 pip show 来 check 版本是否一致。如果不一致,则可以先卸载后重装制定版本。验证版本无误后,成功正常运行🎉。原创 2024-06-17 16:35:51 · 1369 阅读 · 0 评论 -
【可控图像生成系列论文(一)】MimicBrush 港大、阿里、蚂蚁集团合作论文解读
背景:考虑到用户的不同需求,图像编辑是一项实用而富有挑战性的任务,其中最困难的部分之一是准确描述编辑后的图像应该是什么样子。创新点:在本文作者提出了一种新的编辑形式,称为模仿编辑,以帮助用户更方便地发挥他们的创造力。原创 2024-06-17 12:03:53 · 1201 阅读 · 0 评论 -
【SVG 生成系列论文(十一)】如何定制化地生成 SVG 图案?Text-Guided Vector Graphics Customization
评估:作者使用来自矢量级、图像级和文本级的多种指标对该方法进行了广泛评估。背景:矢量图形在数字艺术中被广泛使用,并因其可扩展性和逐层拓扑特性而受到设计师的重视。,重建目标图像,确保在与定制光栅图像对齐的同时实现平滑的形状变形,以保留路径的规则性。本文提出了一种新颖的流程,可以根据文本提示生成高质量的定制矢量图形,同时保留给定的。问题:然而,创建和编辑矢量图形需要创意和设计专业知识,因此是一个耗时的过程。,作者生成了基于文本提示的定制光栅图像(像素图像)。,该方法保留并转换了示例SVG中的关键路径。原创 2024-06-04 19:46:56 · 804 阅读 · 0 评论 -
【SVG 生成系列论文(九)】如何通过文本生成 svg logo?IconShop 模型推理代码详解
本文将详细拆解 IconShop 的模型结构和对应开源代码。上篇有提到过模型架构如下所示,本篇则从代码的逻辑进行解释,主要是中的sample以及forward两个函数。原创 2024-06-03 21:41:54 · 1046 阅读 · 0 评论 -
【SVG 生成系列论文(十)】分层的矢量路径生成 Text-to-Vector Generation with Neural Path Representation
开发了一种两阶段文本驱动的神经路径优化方法,以指导创建具有有效和逐层SVG路径的矢量图形。本文介绍了一种新颖的神经路径表示方法,旨在通过文本到矢量(Text to vector, T2V)生成技术,使矢量图形的创建更加便捷...原创 2024-06-03 11:15:33 · 392 阅读 · 0 评论 -
【附代码案例】深入理解 PyTorch 张量:叶子张量与非叶子张量
在 PyTorch 中,张量是构建神经网络模型的基本元素。了解张量的属性和行为对于深入理解模型的运行机制至关重要。本文将介绍 PyTorch 中的两种重要张量类型:叶子张量和非叶子张量,并探讨它们在反向传播过程中的行为差异。原创 2024-05-27 22:09:57 · 738 阅读 · 0 评论 -
【SVG 生成系列论文(八)】如何生成 svg logo?IconShop: 通过自回归 Transformer 实现文本引导的矢量 Icon 生成
论文名:IconShop: Text-Guided Vector Icon Synthesis with Autoregressive Transformers (Siggraph Asia 2023)文章提出的模型输入为文本,模型输出为单色的、相对简单的矢量图 icon。介绍了 SVG 表示与 Token 化、掩码方案,本篇则介绍模型架构和具体的训练技巧。原创 2024-05-21 16:42:37 · 1030 阅读 · 0 评论 -
【SVG 生成系列论文(七)】如何生成 svg logo?IconShop: 通过自回归 Transformer 实现文本引导的矢量 Icon 生成
本文将进一步介绍技术细节:SVG 表示与 Token 化,以及掩码方案。论文名:IconShop: Text-Guided Vector Icon Synthesis with Autoregressive Transformers (Siggraph Asia 2023)文章提出的模型输入为文本,模型输出为单色的、相对简单的矢量图 icon。原创 2024-05-21 15:18:09 · 948 阅读 · 0 评论 -
【SVG 生成系列论文(六)】如何生成 svg logo?IconShop: 通过自回归 Transformer 实现文本引导的矢量 Icon 生成
在本文中,我们将继续介绍一种非优化方法(直接生成 SVG 代码)的技术路线,这项工作名为 IconShop。IconShop 是在 StarVector 之前的同类研究,为这一技术路线的发展奠定了基础。本篇简要介绍背景和应用,后续文章将进一步介绍技术细节与相关代码。原创 2024-05-21 10:43:58 · 914 阅读 · 0 评论 -
【SVG 生成系列论文(五)】Diffvg 矢量图生成的开山之作 —— MIT 与 Adobe 合作论文
本文简要介绍的 Diffvg 则属于 svg 生成与编辑领域的开山之作。论文全称:Differentiable Vector Graphics Rasterization for Editing and Learning(用于编辑和学习的可微分矢量图形光栅化)项目链接:https://github.com/BachiLi/diffvg。原创 2024-05-16 14:30:44 · 1645 阅读 · 0 评论 -
【SVG 生成系列论文(三)】如何用 LLM 来生成 SVG 代码,StarVector: Generating Scalable Vector Graphics Code from Images
本篇则重点介绍数据和实验部分。StarVector 一文中提出了一个用于验证位图到矢量图生成的数据集SVGBench,其主要来源于 Glypazzn[1],DeepSVG[2],TheStack[3] 三个工作。如下图所示:对于不同的 Dataset (SVG-Fonts、Icons、Emoji和Stack)均拆为了训练、验证和测试集。SVG 简化(Simplification):由于 DeepSVG[2] 需要对其输入的SVG进行简化。原创 2024-05-09 22:03:19 · 1511 阅读 · 0 评论 -
【SVG 生成系列论文(二)】用 LLM 来生成 SVG 代码,StarVector: Generating Scalable Vector Graphics Code from Images
StarVector 的模型可以分为两大块:(1)Image Encoder and Visual Tokens 和 (2)CodeLLM(StarCode)原创 2024-05-09 14:05:37 · 1094 阅读 · 0 评论 -
【看不懂命令行、.yaml?】Hydra 库极速入门
Hydra 的名字来源于它能够运行多个类似的作业 - 就像一个多头的水怪一样。原创 2024-04-22 20:04:56 · 1215 阅读 · 0 评论 -
【原创解决方案】ImportError: libcupti.so.12: cannot open shared object file: No such file or directory
背景:在下载 svgrender 库(https://pytorch-svgrender.readthedocs.io/en/latest/install.html)的最后一步时,遇到以下报错。原创 2024-04-22 14:51:01 · 4993 阅读 · 7 评论 -
【 AIGC 研究最新方向(下)】面向平面、视觉、时尚设计的高可用 AIGC 研究方向总结
目前面向平面、视觉、时尚等设计领域的高可用 AIGC 方向有以下 4 种:1. 透明图层生成,2. 可控生成,3. 图像定制化,4. SVG 生成原创 2024-04-21 23:36:02 · 1178 阅读 · 0 评论 -
【 AIGC 研究最新方向(上)】面向平面、视觉、时尚设计的高可用 AIGC 研究方向总结
目前面向平面、视觉、时尚等设计领域的 AIGC 方向有以下 4 种:1. 透明图层生成,2. 可控生成,3. Train-free 的图像定制化,4. SVG 生成原创 2024-04-21 19:58:39 · 1478 阅读 · 0 评论 -
【Diffusers 报错解决】401 Client Error, 404 Client Error, OSError: models/image_encoder is not a local
解决 OSError原创 2024-04-16 16:50:56 · 1419 阅读 · 0 评论 -
【LatentDiffusion 代码详解(1)】LatentDiffusion 的 yaml 解读
YAML 文件提供了一种清晰、简洁且易于理解的方式来描述配置信息,特别适用于机器学习模型的超参数调优和实验管理。原创 2024-04-16 16:36:33 · 1707 阅读 · 0 评论 -
【解决方案】File “setup.py“ not found‘(运行conda env create -f environment.yaml)
搭建 conda 环境时,运行以下代码遇到了 Error发现中包含了所以实际上是导致了错误那具体来看做了什么?-epip那么针对的解决方案则很简单,就是找到setup.py文件放到当前路径。原创 2024-04-14 16:19:26 · 982 阅读 · 0 评论 -
【带文字的图像生成-附开源代码】AIGC 如何在图像中准确生成文字?图像篇(下)
文字图像生成(Text-image generation)”即生成带有指定文字的图像。如下图所示,市面常见的通用文生图很难准确地生成带有指定文字的图像。原创 2024-04-11 17:29:56 · 1626 阅读 · 0 评论 -
【带文字的图像生成-附开源代码】AIGC 如何在图像中准确生成文字?字体篇(上)
“文字图像生成(Text-image generation)”即生成带有指定文字的图像。如下图所示,市面常见的通用文生图很难准确地生成带有指定文字的图像。文字图像生成也被称为文本渲染(Text rendering)。在图像生成中该任务至关重要,特别是文本在海报、书籍封面和表情包等各种视觉形式等广泛应用,这对 AIGC 在时尚、包装、平面、logo、字体、产品等众多设计领域的真正落地至关重要。相关研究分类。原创 2024-04-10 16:19:45 · 2536 阅读 · 1 评论 -
ubuntu 中用 conda install xformers 报错包不匹配【Could not solve for environment specs The following package】
复现论文时,在 ubuntu 中使用 conda install 如下 bash 命令行就会报错原创 2024-01-15 19:39:18 · 3694 阅读 · 5 评论 -
深度学习如何恢复训练?中断的训练如何接着之前保存的 ckpt 参数继续训练?Pytorch-Lightning Trainer
加载 ckpt 模型参数继续训练原创 2023-02-08 16:16:33 · 3260 阅读 · 0 评论 -
bibtex 格式文件如何导入 Endnote
Bibtex 格式的参考文献没法导入到 Endnote ,怎么办?原创 2022-09-27 22:12:12 · 3977 阅读 · 0 评论
分享