掀桌子级别的「数字人」开源了!
刚刚,刚刚头部数字人公司硅基智能宣布:开源了全球 TOP 级别的模型:硅基数字人 heygem.ai
并且提供下载安装包,对于不懂代码的小白也能快速上手制作自己的数字人。效果业内顶级,直接把数字人技术的门槛拉到地板。
口型匹配效果流畅丝滑,业内顶级,并且开放了无限克隆能力。这是真掀桌子了,不仅思考:以后谁还会花钱买数字人?
开源地址:https://github.com/GuijiAI/HeyGem.ai
01
有多强?
只需要上传 1 秒视频或者一张你的照片, 30 秒就能克隆出你的数字分身,精准克隆你的外貌和声音,并生成 60 秒视频。
① 口型发音匹配,毫无为违和感。
基于先进 AI 算法,基于你上传的肖像图片,精准捕捉识别你的五官、面部轮廓,识别你的声音的特征,克隆你的形象和声音。
而且在侧脸或者脸部遮挡情况下,也能 100% 匹配口型和发音。并且数字人分身会自动对口型,根据语音内容自动调节表情和语速节奏,顶级口型发音匹配。
克隆音色后支持 8 种语言输出,看看你的数字分身说一口流利日语是什么样的
② 无限时长,离线克隆
市面上的数字人工具,生成 20 分钟的视频大概需要 15 元。使用硅基数字人开源工具,免费不限量,并且支持离线克隆数字人的形象和声音。
不需要网络,不会把你的个人隐私照片、视频上传到云端,保护你的隐私。
③ 4K 画质,高清导出
逛逛 GitHub 之前推荐过硅基智能第一个数字人开源项目,那个画质仅仅支持 720p ,硅基数字人直接支持超清 4K 导出,无限时长合成数字人视频,清晰度拉满。
④ 代码开源,定制化开发
开发者可基于硅基数字人的开源代码定制开发,企业能在本地搭建 AI 内容生产系统,创作者则可轻松生成高质量的 AI 数字人视频。
不再依赖封闭平台或昂贵云服务,其高效推理实现 1:2 视频渲染速度,灵活部署适合个人、中小企业及大型机构,广泛应用于内容创作、营销、教育、电商等领域。
02
如何部署
硅基数字人提供了多种部署方式,只要你的显卡配置不低于 英伟达1080Ti、并且本地有 100G 的空间,就能在本机搭建属于你自己的数字人生成神器。
如下是推荐配置哈:
CPU:第 13 代英特尔酷睿 i5-13400F
内存:32G
显卡:rtx-4070,确保正确安装了显卡驱动
安装 Windows Docker
① 安装 wsl 的命令:wsl --install
可以用 wsl --list --verbose 命令可以查看本机有没有安装过 wsl,如果装过了就不需要装了。
② 下载 Docker Windows 版
打开 docker.com 下载,根据你的硬件配置情况选合适的版本。
③ 安装成功后,可以运行 Docker
安装服务端
采用 Docker 方式安装,docker-compose 如下:
在本地新建一个 docker-compose.yml 文件,把上面的内容粘贴进去。在 docker-compose.yml 所在目录执行如下命令。
docker-compose docker-compose up -d
连接上 WiFi,大概半小时左右就能下载完成(大概 70 G),如果在 Dokcer 中看到如下三个服务,表示成功了:
客户端
构建脚本 npm run build:win,执行后会在 dist 目录下产生 HeyGem-1.0.0-setup.exe,双击即可安装啦。
开源地址:https://github.com/GuijiAI/HeyGem.ai