Self-conditioned Image Generation via Generating Representations

LustZero

已于 2024-01-07 14:57:49 修改

阅读量442

点赞数 6

文章标签：计算机视觉人工智能深度学习

于 2023-12-29 13:48:19 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_55309250/article/details/135101726

版权

作者

两个一作都是来自MIT，二作是何凯明。

文章结构

引言部分：通过监督学习与自监督学习的关系引出自条件生成与条件生成，并介绍了自条件生成模型的整体架构以及模型效果。

相关工作：自监督学习、图像生成

实验方法：模型三个阶段的具体实现，最后还加上了一个classifier-free Guidance的实验

实验结果：介绍了模型选择和参数设置，无条件图像生成的结果、classifier-free Guidance的实验结果、一些消融实验、算力消耗、定性结果。

讨论：跨越了条件生成与无条件生成的鸿沟，使得高质量的图像生成可以不依赖于外界标注。

研究背景

这篇文章做的是图像生成的任务，提出了一个以图片自身的特征表示作为条件的自条件生成模型，可以看作是一种无条件生成，因为它不需要借助外界的标注，但是它又有别于一般的条件生成，作者给它取名为自条件生成。

整体思路

文中将模型分为三部分：a)通过自监督模型获得图像的特征分布。 b)通过扩散模型，对提取的特征进行再采样。c)用已提取的特征作为条件的条件生成模型生成出图片。通过扩散模型对自监督模型提取出的特征建模并采样，既可以获得表征空间的低维特征，又可以获得表征空间的多样性，使得图像生成不依赖于人工标注。模型结构如下图所示。

实现细节

第一阶段使用的是MoCo v3，用它训练出一个特征编码器。第二阶段使用的是特征扩散模型，它的训练和推理过程和DDIM相似。第三阶段使用的是MAGE，并用之前获得的图像特征作为条件指导条件生成，同时文章也是ADM、LDM作为图像生成模型。文章还在图像生成这一步，加上了一个无分类器指导的实验，结果较RCG又有所提高。

结果展示

实验是在 Image 256×256 数据集上实现的，下面分别是定量结果和定性结果。

这篇文章整体的创新点在于用图片自身特征作为条件指导自条件图像生成，整体的模型架构主要是之前的模型的堆叠，所以读这篇文章时，需要对比较多的模型有所掌握，如MoCo v3、DDPM、DDIM、VQGAN、MAGE、ADM、LDM等。

关注

6
点赞
踩
7

收藏

觉得还不错? 一键收藏
1
评论
Self-conditioned Image Generation via Generating Representations

两个一作都是来自MIT，二作是何凯明。
复制链接

扫一扫

LustZero CSDN认证博客专家 CSDN认证企业博客

码龄3年

5: 原创

149万+: 周排名

22万+: 总排名

2126: 访问

: 等级

113: 积分

30: 粉丝

39: 获赞

4: 评论

33: 收藏

私信

关注

热门文章

分类专栏

最新评论

Masked Autoencoders Are Scalable Vision Learners——有遮挡的自编码器是一个可拓展的视觉学习器
CSDN-Ada助手: 恭喜你写了这篇关于遮挡自编码器的博客！看来你对视觉学习器有着深入的了解。我很期待看到你未来更多关于可拓展视觉学习器的研究成果。或许下一步你可以探讨一下遮挡自编码器在特定视觉任务上的应用，这可能会给读者带来更多启发。希望你可以继续保持创作的热情，为我们带来更多精彩的内容！ CSDN 正在通过评论红包奖励优秀博客，请看红包流：https://bbs.csdn.net/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
matplotlib.pyplot.imshow（）中 vmin, vmax 参数
CSDN-Ada助手: 恭喜您写了第四篇博客！标题为“matplotlib.pyplot.imshow（）中 vmin, vmax 参数”，这是一个非常有意义的主题。您对这两个参数的解释非常清晰，让读者能够更好地理解它们在imshow函数中的作用。非常感谢您的分享！在下一篇博客中，如果可能的话，您可以考虑探讨一下imshow函数中其他常用的参数，或者给出一些实际应用的示例。这样可以进一步帮助读者更好地使用这个函数，并丰富他们的知识。期待您的下一篇作品，再次恭喜您！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5
训练时，loss的相关问题
CSDN-Ada助手: 非常感谢您对训练时loss相关问题的探讨，这篇博客非常有价值！您的持续创作不仅展示了您对于该主题的深入理解，也为读者提供了宝贵的参考。在下一步的创作中，或许您可以探讨一些解决这些loss相关问题的实用方法或者分享一些个人经验，这将进一步丰富您的内容，并助于我们更好地理解和应用这些概念。期待您未来更多精彩的博客！
Self-conditioned Image Generation via Generating Representations
CSDN-Ada助手: "非常棒的文章！鼓励作者继续创作，分享更多关于自我条件图像生成的研究成果。除了文章中提到的内容，还可以进一步探讨生成对抗网络（GAN）在图像生成中的应用，以及如何通过对抗训练来提高生成图像的质量和多样性。期待作者在未来的文章中能够分享更多相关的知识和技能，共同学习进步。" 如何写出更高质量的博客，请看该博主的分享：https://blog.csdn.net/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
转置卷积的使用
CSDN-Ada助手: 恭喜你开始了博客创作，转置卷积的使用是一个很有深度的话题，你写得很好！接下来，我建议你可以尝试写一些实际案例或者应用场景，让读者更好地理解转置卷积的使用方法。希望你能继续保持创作的热情，期待看到更多精彩的内容！推荐【每天值得看】：https://bbs.csdn.net/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。