可让照片人物“开口说话”阿里图生视频模型EMO，高启强普法

最新推荐文章于 2025-05-26 16:38:55 发布

yimifx

最新推荐文章于 2025-05-26 16:38:55 发布

阅读量2k

点赞数 20

分类专栏： AI 人工智能 AIGC 文章标签：人工智能 ai AIGC 音视频算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yimitiantang/article/details/136408157

版权

阿里巴巴研究团队开发的EMOAI框架能将人物照片与音频结合，生成逼真的说话和唱歌视频。基于Audio2Video扩散模型，经过大量训练，EMO展示了高仿真度和多语言支持的能力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

3 月 1 日消息，阿里巴巴研究团队近日发布了一款名为“EMO（Emote Portrait Alive）”的 AI 框架，该框架号称可以用于“对口型”，只需要输入人物照片及音频，模型就能够让照片中的人物开口说出相关音频，支持中英韩等语言。

据悉，EMO 基于英伟达的 Audio2Video 扩散模型打造，号称使用了超过 250 小时的专业视频进行训练，从而得到了相关 AI 框架。　

注意到，研究团队分享了几段由 EMO 框架生成的 DEMO 演示片段，并在 ArXiv 上发布了模型的工作原理，感兴趣的小伙伴也可以访问 GitHub 查看项目。

据介绍，该框架工作过程分为两个主要阶段，研究人员首先利用参考网络（ReferenceNet）从参考图像和动作帧中提取特征，之后利用预训练的音频编码器处理声音并嵌入，再结合多帧噪声和面部区域掩码来生成视频，该框架还融合了两种注意机制和时间模块，以确保视频中角色身份的一致性和动作的自然流畅。

研究人员援引一系列实验结果，声称 EMO 不仅能够产生令人信服的说话视频，还能生成各种风格的歌唱视频，号称“显著优于目前的 DreamTalk、Wav2Lip、SadTalker 等竞品”。

据悉࿰

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。