自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 【论文阅读】LaMa:Resolution-robust Large Mask Inpainting with Fourier Convolutions

有趣的是,FFCs 的归纳偏置使网络能够泛化到训练过程中从未见过的超高分辨率(图 5,图 6)。有趣的是,FFCs 使该方法能够泛化到从未见过的高分辨率,并且与最先进的基线相比,参数效率更高。(发现宽的掩码对不论宽还是窄的掩码的inpaint性能都有帮助,不过是对特定模型,有些模型指标反而下降了,作者猜测是模型设计问题,可能那些模型设计没有高感受野或相关损失函数。停止相对于变量的梯度(优化判别器的时候,冻结生成器的参数;FFCs 的强大之处 FFCs 是完全可微分的,且易于使用的传统卷积的即插即用替代品。

2025-10-05 19:18:04 961

原创 【论文阅读】Towards Enhanced Image Inpainting——ASUKA 减少不需要的对象插入并保持颜色一致性

(MAE 作为上下文稳定的先验由于 MAE 是在 L2 重建损失上进行训练的,我们可以将 MAE 的估计视为平均估计,它可以用来为生成模型不产生新概念提供上下文稳定的先验。然而,MAE 本身会导致平均生成和模糊生成,并且无法重建遮罩区域的详细纹理,如果我们使用 MAE 先验作为修复模型以图像到图像风格进行修复的初始值,则效果不佳,)经过了数据增强之后,发现模型在大面积的 mask 上还是会有色差问题,这时候,VAE 优化不动了,所以就假设是 SD 所导致的色差。这么做了之后发现,还是需要有色差问题。

2025-09-30 17:23:07 1260

原创 通俗理解DDPM原理,训练和采样流程——High Level

我们先定义一些参数,后面会用到: 是我们的噪声调度器(表示 单步 添加噪声的方差)。DDPM 论文的作者在 和 之间使用线性调度器。在时间 , 的值将是 。在时间 , 将是 。所以时刻 t 添加的噪声将会是:定义 (单步 信号保留率)为 ,并将 定义为从时间 到时间 的 alpha 值的累积乘积。 是根据噪声调度器计算的。这个值越低,添加的噪声就越多。好,接下来我们的前向过程可以从 (xt∣x0)(x_t|x_0)(xt​∣x0​) 和 (xt∣xt−1)(x_t | x_{t-1

2025-09-30 15:04:34 882

原创 【论文阅读】POSTA: A Go-to Framework for Customized Artistic Poster Generation (CVPR 2025)

训练后模型能够理解字体样式的文本描述,并生成具有艺术特征的文本,如 3D 效果、金属纹理、色彩渐变和轮廓。它们经常产生拼写错误或扭曲的字符,即使为文本放置提供了边界框,较长文本的准确性仍然不可靠,限制了它们在实际应用中的实用性。通过提供高质量的、人工标注的分割掩码,这个数据集为提高文本分割精度提供了宝贵资源,尤其是在文本自然地与复杂或错综复杂的背景融合时。效果:在不同的背景区域,文字呈现出不同的照明和色彩效果(并确保与背景的无缝融合),并且由于增加了这部分数据,文本的准确性也提升了。

2025-09-29 14:12:48 775

原创 【论文阅读】PosterCraft: Rethinking High-Quality Aesthetic Poster Generation in a Unified Framework

对每组 5 张生成的海报进行人工偏好评分,选取评分最高的作为偏好样本,评分最低的作为拒绝样本,形成偏好对。该数据集通过自动化流程构建,包含 200 多万个样本,其核心思想在于将具有高度多样性(内容、尺寸、位置、旋转)且 100%准确的文本实例,渲染至丰富多变的高质量真实图像背景之上。通过此策略,模型学会了将文本视为构图的有机组成部分,而非简单的“贴图”,从而显著提升了生成海报的整体视觉连贯性与艺术性。对于不同的微调任务,例如针对 FLUX 的艺术字微调,设计对应的 mask,这是个常见的手段,可以学习。

2025-09-29 14:04:24 1010

原创 【论文阅读】Sparse VideoGen: Accelerating Video Diffusion Transformers with Spatial-Temporal Sparsity

Attention Mask 的存储空间开销、online sampling 的 token ,计算全量 Attention map 和两种 Attention map 的时间开销(最多占原来全量计算的 10%)、layout transformation(用比较好的算法实现,开销几乎可以忽略)它从每个注意力头中随机采样 1%的 token,并对采样 token 进行全注意力计算和两种不同的稀疏注意力(空间头和时间头)处理。最后,选择与全注意力相比误差(MSE)较低的稀疏模式为每个头。

2025-09-29 11:11:17 927

原创 下载ChatGPT客户端

找到设置中的“传递优化”。勾选上“我本地网络上的电脑和Internet上的电脑”顺便还可以点进“高级选项”里面,把所有限速的都取消勾选了。勾选TLS 1.2和1.3,关闭代理。2、软件下载速度很慢。

2024-12-09 12:04:17 1411 1

原创 AcWing算法基础课笔记1(持续更新)

自制AcWing算法基础课笔记,跟着课程视频做的,其中有一些自己学习过程中的思考

2024-09-17 20:31:25 2040

原创 MinkowskiEngine库的安装

为什么指定了cuda_home还是找不到cuda?cuda的路径是没有错的,或许系统默认调用的是bashrc中指定的cuda,使用下面命令查看一下系统的cuda_home。与上面报错中的cuda路径一致,于是重新指定cuda_home,并追加cuda路径到环境变量(若已有就不用执行)从github上克隆对应的库,尝试使用源码中的setup.py进行安装。tips:我的gcc版本是13(其实13也能装,主要是cuda和torch版本对应)最后再重新安装一下torch,注意是11.1cuda版本的。

2024-05-30 11:58:02 1095

原创 导入matplotlib/Seaborn 报错: DLL load failed while importing _imaging: 找不到指定的模块。

这个错误提示通常与Pillow库中的_imaging模块有关,该模块用于处理图像。出现这个错误可能是因为Pillow库未能正确加载_imaging模块。通常此类找不到某方法,或者找不到某模块的的错误,可以通过升降对应库的版本解决。此处需要pillow>=9.3.0。Seaborn是基于Matplotlib的高级数据可视化库,而Matplotlib是基于pillow库的。pip会自行判断当前pillow版本,若原版本

2024-05-25 11:23:39 1073

原创 安装jupyter插件nbextensions踩坑记录

在安装jupyter插件nbextensions时所遇到的一些问题以及所参考的博文,记录了插件安装中jupyter版本不匹配导致安装失败,在命令行中打开jupyter失败等问题,以及其解决方案(链接),并记录了jupyter-notebook常用快捷键。

2024-05-19 19:30:18 1530 2

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除