掀桌子级别的「数字人」开源了！

最新推荐文章于 2025-04-20 07:07:54 发布

逛逛GitHub

最新推荐文章于 2025-04-20 07:07:54 发布

阅读量7.5k

点赞数 20

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_47080540/article/details/146084762

版权

掀桌子级别的「数字人」开源了！

刚刚，刚刚头部数字人公司硅基智能宣布：开源了全球 TOP 级别的模型：硅基数字人 heygem.ai

并且提供下载安装包，对于不懂代码的小白也能快速上手制作自己的数字人。效果业内顶级，直接把数字人技术的门槛拉到地板。

口型匹配效果流畅丝滑，业内顶级，并且开放了无限克隆能力。这是真掀桌子了，不仅思考：以后谁还会花钱买数字人？

开源地址：https://github.com/GuijiAI/HeyGem.ai

01

有多强？

只需要上传 1 秒视频或者一张你的照片， 30 秒就能克隆出你的数字分身，精准克隆你的外貌和声音，并生成 60 秒视频。

① 口型发音匹配，毫无为违和感。

基于先进 AI 算法，基于你上传的肖像图片，精准捕捉识别你的五官、面部轮廓，识别你的声音的特征，克隆你的形象和声音。

而且在侧脸或者脸部遮挡情况下，也能 100% 匹配口型和发音。并且数字人分身会自动对口型，根据语音内容自动调节表情和语速节奏，顶级口型发音匹配。

克隆音色后支持 8 种语言输出，看看你的数字分身说一口流利日语是什么样的

② 无限时长，离线克隆

市面上的数字人工具，生成 20 分钟的视频大概需要 15 元。使用硅基数字人开源工具，免费不限量，并且支持离线克隆数字人的形象和声音。

不需要网络，不会把你的个人隐私照片、视频上传到云端，保护你的隐私。

③ 4K 画质，高清导出

逛逛 GitHub 之前推荐过硅基智能第一个数字人开源项目，那个画质仅仅支持 720p ，硅基数字人直接支持超清 4K 导出，无限时长合成数字人视频，清晰度拉满。

④ 代码开源，定制化开发

开发者可基于硅基数字人的开源代码定制开发，企业能在本地搭建 AI 内容生产系统，创作者则可轻松生成高质量的 AI 数字人视频。

不再依赖封闭平台或昂贵云服务，其高效推理实现 1:2 视频渲染速度，灵活部署适合个人、中小企业及大型机构，广泛应用于内容创作、营销、教育、电商等领域。

02

如何部署

硅基数字人提供了多种部署方式，只要你的显卡配置不低于英伟达1080Ti、并且本地有 100G 的空间，就能在本机搭建属于你自己的数字人生成神器。

如下是推荐配置哈：

CPU：第 13 代英特尔酷睿 i5-13400F
内存：32G
显卡：rtx-4070，确保正确安装了显卡驱动

安装 Windows Docker

① 安装 wsl 的命令：wsl --install

可以用 wsl --list --verbose 命令可以查看本机有没有安装过 wsl，如果装过了就不需要装了。

② 下载 Docker Windows 版

打开 docker.com 下载，根据你的硬件配置情况选合适的版本。

③ 安装成功后，可以运行 Docker

61eb4c19-3e7a-4791-a266-de4209690cbd

安装服务端

采用 Docker 方式安装，docker-compose 如下：

在本地新建一个 docker-compose.yml 文件，把上面的内容粘贴进去。在 docker-compose.yml 所在目录执行如下命令。

docker-compose docker-compose up -d

连接上 WiFi，大概半小时左右就能下载完成（大概 70 G），如果在 Dokcer 中看到如下三个服务，表示成功了：

客户端

构建脚本 npm run build:win，执行后会在 dist 目录下产生 HeyGem-1.0.0-setup.exe，双击即可安装啦。

图像-20250304114114272

开源地址：https://github.com/GuijiAI/HeyGem.ai

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。