AtomoVideo：阿里推出高保真图像到视频生成开源模型，具有更好的运动强度和一致性

AIGC Studio

于 2024-03-07 09:54:45 发布

阅读量2.6k

点赞数 14

分类专栏： AIGC 深度学习论文阅读文章标签：计算机视觉人工智能 AIGC 视频生成

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/xs1997/article/details/136525215

版权

深度学习同时被 3 个专栏收录

331 篇文章

订阅专栏

321 篇文章

订阅专栏

232 篇文章

订阅专栏

AtomoVideo是一种新型的高保真图像到视频(I2V)生成框架，可以从输入图像生成高保真视频，实现比现有工作更好的运动强度和一致性，并且兼容各种个性化的T2I模型，无需特定调整。

相关链接

项目：atomo-video.github.io

论文：arxiv.org/abs/2403.01800

论文阅读

高保真图像到视频生成

摘要

近年来，基于先进的文本到图像生成技术，视频生成取得了长足的发展。在这项工作中，我们提出了一个用于图像到视频生成的高保真框架，名为AtomoVideo。基于多粒度图像注入，实现了生成的视频对给定图像的高保真度。此外，由于高质量的数据集和训练策略，我们实现了更大的运动强度，同时保持了优越的时间一致性和稳定性。我们的架构可以灵活地扩展到视频帧预测任务，通过迭代生成实现长序列预测。此外，由于适配器训练的设计，我们的方法可以很好地与现有的个性化模型和可控模块相结合。通过定量和定性评价，AtomoVideo与常用方法相比取得了更好的效果。

方法

图像到视频方法的框架：我们使用预训练好的T2I模型，在每个空间卷积和注意层之后新增1D时间卷积和时间注意模块，固定T2I模型参数，只训练新增的时间层。同时，为了注入图像信息，我们将输入通道修改为9通道，增加图像条件隐码和二值掩码。由于输入的拼接图像信息仅由VAE编码，因此它代表低级信息，这有助于增强视频相对于给定图像的保真度。同时，我们还以交叉注意的形式注入高级图像语义，以实现更多的语义图像可控性。

实验

感谢你看到这里，也欢迎点击关注下方公众号，一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术，欢迎一起交流学习💗～

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

AIGC Studio 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。