又 3 个开源数字人，太绝了！

逛逛GitHub

于 2025-05-08 15:04:50 发布

阅读量423

点赞数 6

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_47080540/article/details/147870268

版权

01

模块化数字人对话系统

OpenAvatarChat 是一个由 HumanAIGC-Engineering 团队开发的模块化数字人对话系统，通过简单配置，在单台电脑上实现与虚拟数字人的实时交互。它结合了语音识别、语言模型、语音合成和数字人动画技术，提供低延迟、高流畅度的对话体验。

① 实时语音对话

用户说话结束后，数字人平均 2.2秒内即可开始回答（测试环境：i9-13900KF + RTX 4090）。支持本地或云端语言模型，用户可根据硬件条件灵活选择。

② 模块化设计

各功能模块可独立替换（如语音识别、语言模型、语音合成等），方便定制和扩展。关键模块如下：

• 语音检测（VAD）：判断用户何时开始/结束说话（基于 silero-vad）。

• 语音识别（ASR）：将语音转为文字（支持 SenseVoice 模型）。

• 语言模型（LLM）：生成回答文本（默认用 MiniCPM-o，也支持阿里云“通义千问”等云端API）。

• 语音合成（TTS）：将文本转为语音（基于 CosyVoice，支持自定义音色）。

• 数字人动画：根据语音生成面部表情和动作（lite-avatar，CPU推理可达30帧/秒）。

③多模态支持（实验性）

语言模型 MiniCPM-o 可处理文本和图像输入，但需较高显存（20GB以上），开启后可能影响性能。最低配置：

• GPU：支持CUDA，若使用量化版语言模型（int4），显存需 ≥10GB。

• CPU：推荐高性能CPU（如i9-13980HX）以保证数字人动画流畅。

• Python 3.10+，需安装 git-lfs 下载大模型文件。

云端替代方案：若本地配置不足，可改用云端LLM API（如阿里云“百炼”），大幅降低显存需求。

开源地址：https://github.com/HumanAIGC-Engineering/OpenAvatarChat

02

让静态肖像“活起来”

LivePortrait 是一个开源工具，能够将照片或视频中的人物/动物肖像变成生动的动画。比如，你可以让一张证件照里的人像根据视频中的动作眨眼、微笑，甚至让宠物图片模仿真实动物的表情。

开源地址：https://github.com/KwaiVGI/LivePortrait

① 灵活驱动方式

• 图像/视频驱动：用一张图片+动作视频，生成动态肖像。

• 视频到视频编辑（v2v）：直接修改原视频中人物的表情动作。

• 区域控制：精细调整面部特定区域（如嘴巴、眼睛）的动画效果。

② 支持多类型对象

人类肖像（主推功能）和动物模型（如猫狗）均可动画化。

③ 高效与隐私保护

• 预提取动作模板：将驱动视频转换为轻量的 .pkl 文件，加快处理速度，同时避免直接使用他人视频泄露隐私。

• 自动裁剪优化：自动截取视频中的头部区域，减少无效背景干扰。

④ 易用性设计

• 提供 Gradio 网页界面，无需代码操作即可体验；支持 Windows、Linux 和 macOS（苹果芯片）系统。

⑤ 技术亮点

• 缝合控制（Stitching）：确保生成动画时面部特征自然过渡，减少扭曲。

• 重定向控制（Retargeting）：将驱动视频中的动作精准映射到不同人物/动物肖像上。

• 多尺度形变注意力机制：提升关键点检测精度，使动画更逼真。

03

实时高质量唇形同步模型

MuseTalk 是由腾讯音乐娱乐集团（TME）Lyra 实验室开发的一款实时高质量唇形同步模型。它能将任意输入视频或图片中的人物嘴唇动作，精准匹配到输入的音频上（如说话、唱歌），生成口型自然的视频。

开源地址：https://github.com/TMElyralab/MuseTalk

其核心优势在于：
• 实时性：在 NVIDIA Tesla V100 显卡上可达 30 帧/秒以上。

• 多语言支持：中文、英文、日文等音频均可处理。

• 高分辨率：唇部区域处理分辨率为 256x256，优于多数开源方案。

• 灵活调整：通过参数控制唇部张合程度，适配不同场景需求。

模型在图像压缩后的“潜在空间”中直接修复唇部区域（非逐像素处理），提升效率。

• 音频编码：使用 Whisper-tiny 模型提取语音特征。

• 图像编码：采用预训练的 ft-mse-vae 模型压缩图像。

• 融合生成：借鉴 Stable Diffusion 的 UNet 结构，通过交叉注意力机制融合音频与图像特征，单步完成修复（非扩散模型）。

• 训练数据：基于 HDTF 数据集（多人种、多场景视频）。

04

点击下方卡片，关注我

这个公众号历史发布过很多有趣的开源项目，如果你懒得翻文章一个个找，你直接关注微信公众号：逛逛 GitHub ，后台对话聊天就行了。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。