3 个数字人开源,绝了。

ff401c7094967f7a165d7b106556800c.png

01

JoyGen

JoyGen 开源工具由京东和香港大学的团队联合开发,专注于音频驱动的3D深度感知说话人脸视频编辑。

简单来说,JoyGen 可以通过音频输入生成逼真的 3D 说话人脸视频,甚至可以对人脸表情和细节进行深度调整。

它特别适合像虚拟主播生成、AI互动视频制作这样的场景。更厉害的是,这个项目不仅提供了完整的推理代码,还支持个性化训练,适应不同的应用需求。

🚀 实现原理

JoyGen 框架分为两个阶段:

首先,3D 重建模型和音频运动模型分别预测身份和表情系数。然后,通过将音频特征与面部深度图相结合,我们为面部生成中的精确唇音同步提供全面监督。

此外,开发者还构建了一个包含 130 小时高质量视频的中文说话人脸数据集。JoyGen 在开源 HDTF 数据集和我们精选的数据集上进行训练。实验结果表明,JoyGen 在唇音同步和视觉质量上表现卓越。

7fb0647064482b709268ad9f95ae095e.png

08999acac359abe50b9d9ca85c7ab021.png 项目信息

① 该开源项目于上周刚刚开源,基于论文《JoyGen: Audio-Driven 3D Depth-Aware Talking-Face Video Editing》

② 目前该开源项目没有提供可以直接使用的应用,需要自行部署和体验。可以基于如下开源地址自行体验

开源地址:https://github.com/JOY-MM/JoyGen

02

Hallo3

复旦大学和百度联合推出的项目,这个开源框架可以将静态人像变为高度动态、栩栩如生的动画,凭借强大的扩散变换器网络,为影视、虚拟形象和互动内容制作提供了全新的解决方案。

选择一张你喜欢的照片,录制你想要的语音内容。Hallo3 会自动将你的照片和语音结合,生成一个动态的动画。

可以看看下面的案例,面部表情还是动态细节要想达到非常自然还得再下点功夫。  

7407682394a5460321edde304be1a0c4.png 项目信息

① 该开源项目于上周刚刚开源,基于论文《Hallo3: Highly Dynamic and Realistic Portrait Image Animation with Diffusion Transformer Networks》

② 目前该开源项目没有提供可以直接使用的应用,需要自行部署和体验。可以基于如下开源地址自行体验

开源地址:https://github.com/fudan-generative-vision/hallo3

03

LatentSync

字节跳动和北交大开源了一项黑科技:LatentSync。它可以实现视频中人物唇部动作与音频的精准同步,让你的视频说话更自然!

让视频中的人物说出你想要的话,LatentSync 可以帮你实现这些愿望。

原视频:

优化后:

🚀 实现原理

f97305bea68a3520ba8038a33a5d87a4.png

它基于音频条件潜在扩散模型,它可以将音频信号转换为嵌入表示,并通过交叉注意力层将其集成到 U-Net 模型中,从而直接生成与音频匹配的唇部动作。 

这种端到端的设计避免了中间运动表示的需要,减少了误差的累积,提高了唇同步的精确度。

LatentSync还引入了Temporal REPresentation Alignment(TREPA)机制,利用大型自监督视频模型提取的时间表示,使生成的帧与真实帧对齐,从而增强时间一致性。 

这意味着,生成的视频不仅唇同步准确,而且在时间上保持连贯,不会出现跳帧或卡顿现象。

开源地址:https://github.com/bytedance/LatentSync

b08230ccf8b9a6e30cdf3e23dcc527b5.png

数字人(NumerAI)是一家人工智能和金融科技公司,旨在为全球各地的数据科学家们提供一个平台,在这里他们可以通过竞赛的方式来预测金融市场的表现。数字人的平台允许数据科学家们创建并提交用于预测金融市场表现的模型,然后通过验证和实时市场数据的表现来对这些模型进行评估。 数字人的Github是一个开放的平台,数字人的代码和技术文档都可以在这里找到。这些开源的资源为数据科学家们提供了学习和参与数字人竞赛的机会,也为数字人的社区贡献者们提供了一个共享和交流的空间。通过开源数字人向全球开发者社区展示了他们的模型和算法,也吸引了更多的数据科学家们参与到数字人的竞赛和研究中。 数字人的Github开源也有助于促进数字人的技术创新和发展。由于Github是一个集思广益的平台,数字人开源项目可以吸引全球开发者共同参与和完善。数字人可以从全球各地的技术人员们的反馈和贡献中获益,不断改进和优化他们的平台和模型。这种开放式的合作和创新精神也有助于数字人在人工智能和金融科技领域取得更多的进展和突破。 总之,数字人的Github开源为全球数据科学家和技术人员们提供了学习和参与的机会,也为数字人的技术创新和发展提供了更多的动力和资源。数字人希望通过开源,促进全球数据科学家和技术人员的合作交流,推动人工智能和金融科技领域的发展和进步。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值