以下是2025年截止4月份,GitHub上热门的开源数字人项目,涵盖图像生成、语音驱动、直播带货及多模态交互等核心功能,按技术方向分类整理:
一、图像与动态生成类
- HeyGem.ai
- 特点:硅基智能开源的高精度数字人模型,支持1秒视频或单张照片克隆形象与声纹,30秒完成建模,60秒生成4K视频,即使在复杂光影或遮挡场景下也能实现100%口型匹配。
- 适用场景:虚拟主播、企业宣传片、多语言视频生成。
- 硬件需求:最低NVIDIA 1080Ti显卡,推荐RTX 4070+32GB内存。
- GitHub地址:https://github.com/GuijiAI/HeyGem.ai
- OneShotOneTalk
- 功能:单张图像生成全身动态数字人,结合3D高斯点云与SMPL-X模型,支持200+种微表情。
- 亮点:革命性的单图生成技术,适用于虚拟主持、AI客服。
- GitHub地址:One Shot, One Talk: Whole-body Talking Avatar from a Single Image
- MimicTalk
- 技术:基于NeRF技术,15分钟训练个性化3D说话人脸模型,逼真度行业领先。
- 优势:支持音频驱动,生成视频与真人高度相似。
- GitHub地址:https://github.com/yerfor/MimicTalk
二、语音驱动与交互类
- Fay框架
- 功能:实时对话数字人系统,整合ASR(语音识别)、TTS(语音合成)及LLM(大语言模型),支持虚拟主播、语音助理等场景。
- 部署要求:需配置CUDA 11.7与6G显存GPU,支持多终端接入。
- GitHub地址: