Yes思-CSDN博客

原创【论文阅读】LaMa：Resolution-robust Large Mask Inpainting with Fourier Convolutions

有趣的是，FFCs 的归纳偏置使网络能够泛化到训练过程中从未见过的超高分辨率（图 5，图 6）。有趣的是，FFCs 使该方法能够泛化到从未见过的高分辨率，并且与最先进的基线相比，参数效率更高。（发现宽的掩码对不论宽还是窄的掩码的inpaint性能都有帮助，不过是对特定模型，有些模型指标反而下降了，作者猜测是模型设计问题，可能那些模型设计没有高感受野或相关损失函数。停止相对于变量的梯度（优化判别器的时候，冻结生成器的参数；FFCs 的强大之处 FFCs 是完全可微分的，且易于使用的传统卷积的即插即用替代品。

2025-10-05 19:18:04 961

原创【论文阅读】Towards Enhanced Image Inpainting——ASUKA 减少不需要的对象插入并保持颜色一致性

（MAE 作为上下文稳定的先验由于 MAE 是在 L2 重建损失上进行训练的，我们可以将 MAE 的估计视为平均估计，它可以用来为生成模型不产生新概念提供上下文稳定的先验。然而，MAE 本身会导致平均生成和模糊生成，并且无法重建遮罩区域的详细纹理，如果我们使用 MAE 先验作为修复模型以图像到图像风格进行修复的初始值，则效果不佳，）经过了数据增强之后，发现模型在大面积的 mask 上还是会有色差问题，这时候，VAE 优化不动了，所以就假设是 SD 所导致的色差。这么做了之后发现，还是需要有色差问题。

2025-09-30 17:23:07 1260

原创通俗理解DDPM原理，训练和采样流程——High Level

我们先定义一些参数，后面会用到：是我们的噪声调度器（表示单步添加噪声的方差）。DDPM 论文的作者在和之间使用线性调度器。在时间，的值将是。在时间，将是。所以时刻 t 添加的噪声将会是：定义（单步信号保留率）为，并将定义为从时间到时间的 alpha 值的累积乘积。是根据噪声调度器计算的。这个值越低，添加的噪声就越多。好，接下来我们的前向过程可以从 (xt∣x0)(x_t|x_0)(xt∣x0) 和 (xt∣xt−1)(x_t | x_{t-1

2025-09-30 15:04:34 882

原创【论文阅读】POSTA: A Go-to Framework for Customized Artistic Poster Generation （CVPR 2025）

训练后模型能够理解字体样式的文本描述，并生成具有艺术特征的文本，如 3D 效果、金属纹理、色彩渐变和轮廓。它们经常产生拼写错误或扭曲的字符，即使为文本放置提供了边界框，较长文本的准确性仍然不可靠，限制了它们在实际应用中的实用性。通过提供高质量的、人工标注的分割掩码，这个数据集为提高文本分割精度提供了宝贵资源，尤其是在文本自然地与复杂或错综复杂的背景融合时。效果：在不同的背景区域，文字呈现出不同的照明和色彩效果（并确保与背景的无缝融合），并且由于增加了这部分数据，文本的准确性也提升了。

2025-09-29 14:12:48 775

原创【论文阅读】PosterCraft: Rethinking High-Quality Aesthetic Poster Generation in a Unified Framework

对每组 5 张生成的海报进行人工偏好评分，选取评分最高的作为偏好样本，评分最低的作为拒绝样本，形成偏好对。该数据集通过自动化流程构建，包含 200 多万个样本，其核心思想在于将具有高度多样性（内容、尺寸、位置、旋转）且 100%准确的文本实例，渲染至丰富多变的高质量真实图像背景之上。通过此策略，模型学会了将文本视为构图的有机组成部分，而非简单的“贴图”，从而显著提升了生成海报的整体视觉连贯性与艺术性。对于不同的微调任务，例如针对 FLUX 的艺术字微调，设计对应的 mask，这是个常见的手段，可以学习。

2025-09-29 14:04:24 1010

原创【论文阅读】Sparse VideoGen: Accelerating Video Diffusion Transformers with Spatial-Temporal Sparsity

Attention Mask 的存储空间开销、online sampling 的 token ，计算全量 Attention map 和两种 Attention map 的时间开销（最多占原来全量计算的 10%）、layout transformation（用比较好的算法实现，开销几乎可以忽略）它从每个注意力头中随机采样 1%的 token，并对采样 token 进行全注意力计算和两种不同的稀疏注意力（空间头和时间头）处理。最后，选择与全注意力相比误差（MSE）较低的稀疏模式为每个头。

2025-09-29 11:11:17 927

原创下载ChatGPT客户端

找到设置中的“传递优化”。勾选上“我本地网络上的电脑和Internet上的电脑”顺便还可以点进“高级选项”里面，把所有限速的都取消勾选了。勾选TLS 1.2和1.3，关闭代理。2、软件下载速度很慢。

2024-12-09 12:04:17 1411 1

原创 AcWing算法基础课笔记1（持续更新）

自制AcWing算法基础课笔记，跟着课程视频做的，其中有一些自己学习过程中的思考

2024-09-17 20:31:25 2040

原创 MinkowskiEngine库的安装

为什么指定了cuda_home还是找不到cuda？cuda的路径是没有错的，或许系统默认调用的是bashrc中指定的cuda，使用下面命令查看一下系统的cuda_home。与上面报错中的cuda路径一致，于是重新指定cuda_home，并追加cuda路径到环境变量（若已有就不用执行）从github上克隆对应的库，尝试使用源码中的setup.py进行安装。tips：我的gcc版本是13（其实13也能装，主要是cuda和torch版本对应）最后再重新安装一下torch，注意是11.1cuda版本的。

2024-05-30 11:58:02 1095

原创导入matplotlib/Seaborn 报错: DLL load failed while importing _imaging: 找不到指定的模块。

这个错误提示通常与Pillow库中的_imaging模块有关，该模块用于处理图像。出现这个错误可能是因为Pillow库未能正确加载_imaging模块。通常此类找不到某方法，或者找不到某模块的的错误，可以通过升降对应库的版本解决。此处需要pillow>=9.3.0。Seaborn是基于Matplotlib的高级数据可视化库，而Matplotlib是基于pillow库的。pip会自行判断当前pillow版本，若原版本

2024-05-25 11:23:39 1073

原创安装jupyter插件nbextensions踩坑记录

在安装jupyter插件nbextensions时所遇到的一些问题以及所参考的博文，记录了插件安装中jupyter版本不匹配导致安装失败，在命令行中打开jupyter失败等问题，以及其解决方案（链接），并记录了jupyter-notebook常用快捷键。

2024-05-19 19:30:18 1530 2

weixin_46695464的博客