AtomoVideo:阿里推出高保真图像到视频生成开源模型,具有更好的运动强度和一致性

AtomoVideo是一种新型的高保真图像到视频(I2V)生成框架,可以从输入图像生成高保真视频,实现比现有工作更好的运动强度和一致性,并且兼容各种个性化的T2I模型,无需特定调整。

图片

图片

相关链接

项目:atomo-video.github.io

论文:arxiv.org/abs/2403.01800

论文阅读

图片

高保真图像到视频生成

摘要

近年来,基于先进的文本到图像生成技术,视频生成取得了长足的发展。在这项工作中,我们提出了一个用于图像到视频生成的高保真框架,名为AtomoVideo。基于多粒度图像注入,实现了生成的视频对给定图像的高保真度。此外,由于高质量的数据集和训练策略,我们实现了更大的运动强度,同时保持了优越的时间一致性和稳定性。我们的架构可以灵活地扩展到视频帧预测任务,通过迭代生成实现长序列预测。此外,由于适配器训练的设计,我们的方法可以很好地与现有的个性化模型和可控模块相结合。通过定量和定性评价,AtomoVideo与常用方法相比取得了更好的效果。

方法

图片

图像到视频方法的框架:我们使用预训练好的T2I模型,在每个空间卷积和注意层之后新增1D时间卷积和时间注意模块,固定T2I模型参数,只训练新增的时间层。同时,为了注入图像信息,我们将输入通道修改为9通道,增加图像条件隐码和二值掩码。由于输入的拼接图像信息仅由VAE编码,因此它代表低级信息,这有助于增强视频相对于给定图像的保真度。同时,我们还以交叉注意的形式注入高级图像语义,以实现更多的语义图像可控性。

实验

图片

图片

图片


        感谢你看到这里,也欢迎点击关注下方公众号,一个有趣有AI的AIGC公众号:关注AI、深度学习、计算机视觉、AIGC、Stable Diffusion、Sora等相关技术,欢迎一起交流学习💗~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AIGC Studio

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值