想要掌握如何将大模型的力量发挥到极致吗?叶梓老师带您深入了解 Llama Factory —— 一款革命性的大模型微调工具。
1小时实战课程,您将学习到如何轻松上手并有效利用 Llama Factory 来微调您的模型,以发挥其最大潜力。
CSDN教学平台录播地址:https://edu.csdn.net/course/detail/39987
视频号(直播分享):sphuYAMr0pGTk27 抖音号:44185842659
腾讯 Hunyuan 团队近期发布的 HunyuanCustom 模型,为多模态定制化视频生成提供了全新解决方案。该模型能够在文本、图像、音频和视频等多种输入条件下,生成具有高度主体一致性的定制化视频,广泛应用于虚拟人广告、虚拟试穿、视频编辑等场景。
一、模型架构与工作原理
HunyuanCustom 是基于 HunyuanVideo 构建的多模态定制化视频生成框架,核心在于强调主体一致性。它通过引入基于 LLaVA 的文本 - 图像融合模块和图像 ID 增强模块,强化了模型对多模态信息的理解与主体身份特征的提取。具体而言,文本 - 图像融合模块借助 LLaVA 的多模态交互理解能力,将图像和文本进行联合建模,使模型能够准确把握图像中的身份信息,并将其与文本描述进行交互式理解。
二、多模态任务支持
HunyuanCustom 支持多种多模态任务,包括文本驱动、图像驱动、音频驱动和视频驱动的视频定制化生成。在文本驱动的视频生成方面,HunyuanCustom 继承自 HunyuanVideo 的能力,能够根据给定的文本提示生成与文本内容相符合的视频。而在图像驱动的视频定制化中,模型能够提取输入图像中的主体身份信息,并根据文本描述生成相应的视频。例如,用户可输入一张人物照片和一段描述文字,要求生成该人物在特定场景下的视频。
图 2 中展示了 HunyuanCustom 的主要框架,其中明确展示了如何基于文本、图像、音频和视频等不同条件生成具有主体一致性的视频。这种多模态任务支持能力,使得模型在多种应用场景中具有极大的潜力和灵活性。
三、数据构建与处理
为了确保模型能够生成高质量的视频,HunyuanCustom 在数据构建方面进行了精细设计。数据来源多样化,涵盖人类、动物、植物、景观、车辆、物体、建筑和动漫等八大类别。在数据预处理过程中,采用了 PySceneDetect、TextBPN-Plus-Plus 和 Koala-36M 等工具,对视频进行单镜头剪切、文本区域过滤、裁剪对齐等操作,以提高数据质量。
在多主体提取方面,通过 QwenVL 提取视频中的主体关键词,并利用 GroundingSAM2 生成掩码和边界框。这种多主体提取方法能够有效支持多主体视频定制化任务,提高模型对多主体场景的处理能力。
四、音频与视频驱动的视频定制化
在音频驱动的视频定制化方面,HunyuanCustom 提出了音频 - 视频层次对齐的 AudioNet 模块。该模块通过空间交叉注意力机制,将音频特征注入到视频特征中,实现音频与视频的层次化对齐。与传统基于人物图像和音频生成视频的方法不同,HunyuanCustom 能够在不同姿态、服装和场景中生成与音频匹配的人物视频,大大提高了音频驱动视频生成的灵活性和可控性。
图 4 和图 5 展示了 HunyuanCustom 在音频驱动单主体定制化中的效果,可以看到该模型能够生成与文本描述场景和姿态相符合、人物身份保持一致的视频。此外,模型在多主体定制化中也表现出色,能够同时处理多个主体的身份特征,生成符合要求的视频。
在视频驱动的视频定制化方面,HunyuanCustom 提出了一种高效的视频条件注入策略。通过特征对齐和身份解耦的视频条件模块,使得视频特征能够高效地注入到生成模型中,实现物体替换和插入等视频编辑任务。这种策略避免了计算资源的浪费,同时保证了视频生成的质量和效率。
五、实验与应用成果
实验表明,HunyuanCustom 在多种指标上优于现有的开放和闭源方法。在与 VACE、Skyreels-A2 等先进方法的对比中,HunyuanCustom 在身份一致性、文本 - 视频对齐、视频质量和动态度等方面均取得了更优的性能。例如,在单主体和多主体视频定制化实验中,HunyuanCustom 的 ID 一致性、DINO - Sim 等指标均名列前茅。
在虚拟人广告应用中,HunyuanCustom 能够生成具有自然人与产品交互的广告视频。通过输入人物图像和产品图像,模型能够生成人物介绍产品的视频,既保持了人物的身份特征,又保留了产品细节,包括产品上的文字信息。
在音频驱动的定制化中,HunyuanCustom 能够生成人物在不同服装、场景下与音频同步的视频。如在虚拟试穿场景中,模型能够根据输入的人物图像、服装图像和音频,生成人物试穿服装并随音频进行动作的视频,为虚拟试穿体验带来了全新的维度。