Enhance-A-Video简介
今天介绍一款由新加坡国立大学、上海人工智能实验室、德克萨斯大学奥斯汀分校联合推出的Enhance-A-Video,这能够免费改善AI视频的生成质量!
Diffusion Transformers (DiTs) 架构的出现为视频生成开启了一个新时代。尽管如此,现有模型在捕捉关键细节方面存在困难。视频增强可以被视为一种直观的方法,其中考虑两个目标:1. 保持一致性;2. 提高视觉质量。时间注意力在确保帧之间的一致性中起着至关重要的作用,进一步保留了细节。为了更好地理解时间注意力的效果,研究团队在各个块之间可视化了时间注意力模式。可视化结果揭示了一个关键观察:帧之间的注意力权重(非对角线)明显低于沿对角线的权重,这可能导致帧之间的不一致。
帧之间的一致性类似于LLMs中令牌之间的一致性。在LLMs中,Temperature parameter(tau)pre-softmax被用来控制注意力分布,以平衡聚焦和多样化令牌选择。
受到上述分析的启发,研究团队首次发现时间注意力的Temperature决定了跨帧相关性的强度,更高的值使能够更广泛地关注时间上下文。调整时间注意力输出作为一种无需训练的增强,可以直接应用于现有的视频模型。
具体来说,研究团队设计了一个增强模块作为并行分支。该分支计算时间注意力图的非对角线元素的平均值作为跨帧强度(CFI)。一个增强的Temperature参数乘以CFI以增强时间注意力输出。
-
• 项目主页:https://oahzxl.github.io/Enhance_A_Video/
-
• Github:https://github.com/NUS-HPC-AI-Lab/Enhance-A-Video
性能评估
以下案例以HunyuanVideo作为演示,关于CogVideoX-2B、Open-Sora v1.2 可参见项目主页:https://oahzxl.github.io/Enhance_A_Video/
Enhance-A-Video混元视频ComfyUI体验
在最新的ComfyUI-HunyuanVideoWrapper插件中 @kijai大佬已经集成了Enhance-A-Video视频增强能力。在之前的文章中已经介绍过ComfyUI-HunyuanVideoWrapper安装,详情参加:模型下载和安装指南参考之前文章(注意文中链接有变化,参考置顶评论),详情内容:[ComfyUI]腾讯混元视频:虚实完美融合创意无极限!130亿大杯&影视级画质&导演级运镜&原生切镜&遵循物理运动&连续动作
-
• ComfyUI-HunyuanVideoWrapper插件 :https://github.com/kijai/ComfyUI-HunyuanVideoWrapper
-
• 模型可文末网盘获取或参见之前文章下载链接。
Flux文生图工作流
Flux文生图感兴趣的同学可参考LIBLIB在线运行工作流:FLUX[续篇]:12B参数23G最大开源文生图模型,Dev版直出惊艳美图欣赏
本文涉及ComfyUI工作流和模型均可在LIBLIBAI上下载或在线运行体验:
• F.1-绮梦流光-水湄凝香:
https://www.liblib.art/modelinfo/134c6dd95aef48e98a22b24e003e026b
• 工作流-Flux文|图生图+LORA+提示反推一键切换工作流:
https://www.liblib.art/modelinfo/782aacd70f604da39e83368c696a02a8
Enhance-A-Video混元视频工作流
Enhance-A-Video混元视频工作流已上传LIBLIB平台:
https://www.liblib.art/modelinfo/433fbf0bd2a8484d8e32d9e32258f378?versionUuid=eda1476a82fb4f21ad0a2b809f5b43a6
注意:
-
• 本文核心增加节点为HunyuanVideo Enhance A Video该节点连接到采样器节点。并且 @kijai大佬提到:在过去几周里,混元模型的发展非常迅速。官方发布了fp8量化权重模型,插件已支持。另外,通过Enhance-A-Video几乎免费提升质量,这对推理速度有非常轻微的影响,对内存使用没有影响,初步测试表明绝对值得使用。
-
• 能够明显看出使用了Enhance-A-Video增强节点视频中的主体动作会更加丰富,幅度也会更大一些。插件节点参数权重设置建议2-4之间不易过大,结束步数为0.8或1。
-
• 另外,性能上并无显著变化,如下图所示:
01. 猫咪
a white cat balancing on a bamboo stick , full body, no_crop. there's a waterfall in the background
增强后的猫咪动作会更丰富。
无增强 | |
有增强 |
02. 吹泡泡
look at viewer,close-up,Asian beauty blowing bubbles, dragging on the floor in a long pink dress
| |
有增强 |
03.持剑
look at viewer,a blonde woman in a yellow jumpsuit holding a sword in front of her face.
| |
有增强 |
04.弓箭手
look at viewer,An agile elf archer sprinting through an enchanted glade, bow raised and arrow nocked, capturing movement with flowing locks and clothing. The base features a swirling stream with translucent resin to simulate water, supported by a sturdy metal post hidden among the trees. Made from durable polyresin, the figure stands at 8 inches tall with a proportionate 5-inch base, designed for a frontal view that highlights the character's expression. Assembly points include the arms, bow, and grass elements to allow for easy customization.
写在最后
感兴趣的小伙伴,赠送全套AIGC学习资料,包含AI绘画、AI人工智能等前沿科技教程和软件工具,具体看这里。
AIGC技术的未来发展前景广阔,随着人工智能技术的不断发展,AIGC技术也将不断提高。未来,AIGC技术将在游戏和计算领域得到更广泛的应用,使游戏和计算系统具有更高效、更智能、更灵活的特性。同时,AIGC技术也将与人工智能技术紧密结合,在更多的领域得到广泛应用,对程序员来说影响至关重要。未来,AIGC技术将继续得到提高,同时也将与人工智能技术紧密结合,在更多的领域得到广泛应用。
一、AIGC所有方向的学习路线
AIGC所有方向的技术点做的整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照下面的知识点去找对应的学习资源,保证自己学得较为全面。
二、AIGC必备工具
工具都帮大家整理好了,安装就可直接上手!
三、最新AIGC学习笔记
当我学到一定基础,有自己的理解能力的时候,会去阅读一些前辈整理的书籍或者手写的笔记资料,这些笔记详细记载了他们对一些技术点的理解,这些理解是比较独到,可以学到不一样的思路。
四、AIGC视频教程合集
观看全面零基础学习视频,看视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
五、实战案例
纸上得来终觉浅,要学会跟着视频一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。