论文解读
文章平均质量分 92
DeepGoAI
欢迎学习交流!
展开
-
AnyText: 多语言视觉文本生成与编辑
通过结合辅助潜在模块和文本嵌入模块,AnyText 能够在多种语言环境下生成清晰、准确的文本,并且可以轻松地集成到现有的扩散模型中,以提高文本的渲染和编辑质量。AnyText 通过一个包含辅助潜在模块和文本嵌入模块的扩散流程实现文本的生成或编辑,可以在图像中无缝整合文本,支持多种语言,是首个针对多语言视觉文本生成的工作。:结合潜在特征和文本嵌入,通过文本控制扩散管道生成或编辑图像中的文本,确保文本与图像背景的自然融合。这里展示了更多编辑的效果,在不规整的掩码下,依然可以做到毫无违和感的编辑效果。原创 2024-02-20 06:48:17 · 859 阅读 · 0 评论 -
论文介绍 FreeControl: 无需额外训练实现文本到图像的空间操控!
分析阶段和合成阶段。分析阶段:通过对种子图像的扩散特征进行主成分分析(PCA),形成时间依赖的基BtB_tBt,作为语义结构表示。合成阶段:结构引导帮助在引导图像IgI_gIg的指导下构建输出图像III的结构模板,而外观引导从相同种子生成的兄弟图像Iˉ\bar{I}Iˉ中借用外观细节。FreeControl支持多种控制条件、模型架构和自定义模型文件,能够处理大多数现有无训练方法失败的挑战性输入条件,并且与基于训练的方法相比,实现了竞争性的合成质量。转载 2024-02-13 01:03:01 · 66 阅读 · 0 评论 -
论文解读 One-step Diffusion with Distribution Matching Distillation
本文介绍了一种名为分布匹配蒸馏(DMD)的新技术,旨在加速扩散模型的图像生成过程,同时保持高质量的输出。DMD通过将扩散模型转化为一步生成模型,极大地提高了生成速度,达到了实时生成的目标。通过最小化真实与生成分布间的KL散度和引入回归损失,DMD能够在加速生成的同时,保证图像的多样性和质量。转载 2024-02-12 00:04:48 · 102 阅读 · 0 评论 -
论文介绍 VolumeDiffusion: Flexible Text-to-3D Generation with Efficient Volumetric Encoder
本文介绍了一种从文本提示高效且灵活生成3D对象的新方法。通过采用轻量级网络从多视图图像获取特征体积,证明了这种方法能够有效扩大扩散模型训练所需的训练数据规模。转载 2024-02-10 23:50:51 · 24 阅读 · 0 评论 -
Free-Form Image Inpainting with Gated Convolution
Free-Form Image Inpainting with Gated Convolutioncode&paper:https://github.com/JiahuiYu/generative_inpainting基于GAN的图像修复算法,效果非常好。主要贡献点:1.提出了新的Gated Convolution2.提出了新的SN-Parch GAN 效果稳定,且易训练3.新的CNN架构在以往的修复方法中,传统卷积对有效区域和无效区域都是以同样的对待方式,并对其进.原创 2020-09-14 16:40:50 · 1641 阅读 · 0 评论 -
SC-FEGAN: Face Editing Generative Adversarial Network with User’s Sketch and Color
SC-FEGAN: Face Editing Generative Adversarial Network with User’s Sketch and Color基于GAN的人脸编辑,效果非常好,应用点非常新颖。总的来说,效果非常好,包括很多细节都能够进行编辑。就创新点来讲,就是能够想到把笔画和颜色进行结合,然后做一个人脸编辑这个出发点比较有创新。在算法上并没有提出通用的而一些模块等等,除了小改了一下GAN的架构,多加了一些现有的损失,并且做了一些小改。最终要的创新点就是结合了颜色原创 2020-09-13 14:27:35 · 1085 阅读 · 3 评论