目前为止,开源的数字人项目并不多,本文要推荐的这个数字人项目是Fay,在GitHub拥有6.8K+的Star🌟。
Fay是一个数字人框架,它集成了语言模型和数字角色。它为虚拟购物指南、广播员、助手、服务员、教师以及基于语音或文本的移动助手等多样化应用提供带货版、助手版和代理版。
在AGI发展如火如荼的时代,已经不只是“所有产品都值得重新做一遍”,社会的方方面面都将被AI改变。组成这个社会的核心元素无疑是人类,而人类在这个社会所扮演的角色将逐渐被AI所改变,其中数字人就是其中的一种改变方式。
AI是数字人的灵魂。从更广义的范围上说现在的人形机器人等拟真设备其实也是一种数字人的形态。不论是虚拟数字人还是有形态的机器人,其核心都是AI,只有AI才能让他们更接近人类。
如今的AI正在朝着AGI的方向蓬勃发展。在技术层面,大模型逐渐成熟,近期OpenAI推出Sora,是继大语言模型、图像生成模型之后在音视频领域取得的又一个跨越式发展。在应用层面,RGA、Agent等大模型应用的形态逐渐成为许多应用的“标配”,在数字人领域也被用于提升数字人的智能水平,改变人机交互的模式。
总之,数字人将随着AI的发展不断迭代,重新定义许多现有的应用生态,并在人类社会发挥越来越重要的作用。
话不多说,进入Fay的开源地址一看究竟
AI Agent:
https://github.com/xszyou/Fay/tree/fay-agent-edition
直播带货:
https://github.com/xszyou/Fay/tree/fay-sales-edition
数字人助理:
https://github.com/xszyou/Fay/tree/fay-assistant-edition
Fay带货版用于构建虚拟主播、现场推销货、商品导购,等数字人应用场景。该项目各模块之间耦合度非常低,包括声音来源、语音识别、情绪分析、NLP处理、情绪语音合成、语音输出和表情动作输出等模块。每个模块都可以轻松地更换。
Fay助理版(Assistant)
Fay助理提供了灵活的模块化设计,使开发人员能够定制和组合各种功能模块,包括情绪分析、NLP处理、语音合成和语音输出等。助理版构建的是一问(远程或本地,移动或PC,语音或文字)一答(数字人或机器,移动或PC,语音或文字或RPA)的标准模式。
Fay的Agent版
Fay的Agent版能够代替用户完成决策规划并执行,这一切都依赖目前最强的大语言模型的ReAct能力。不同于助理版的一问一答,agent版的Fay可以实现自动代理执行的同时,在它认为必要时候会触发数字人或者直接的声音输出。
(1)去API及会话管理功能将发布;
(2)以上每个模块可轻易替换成自家核心产品;
(3)本地nlp(rasa+chatglm)的替换方法:
https://m.bilibili.com/video/BV1D14y1f7pr?wxfid=o7omF0Vs6RIQFUGAzB6LXOBHa6Yg
安装启动chatglm(github)
安装rasa 包:rasa、rasa-sdk
进入test/rasa目录启动actions:rasa run actions
启动rasa api server:rasa run --enable-api -p 5006
fay_core.py 引入nlp_rasa.py
功能模块
Fay与数字形象建立通讯
下面是一些数字人UE工程。
开源地址为:
https://github.com/xszyou/fay-ue5。
通讯地址:
ws://127.0.0.1:10002
消息格式:
查看(https://github.com/TheRamU/Fay/blob/main/WebSocket.md)
此工程是一个完整的UE数字字人开源工程,可以配合Fay数字人控制器,实现各种应用场景:虚拟主播、商品推销、商品导购、语音助理、远程语音助理、数字人互动、数字人面试官及心理测评、贾维斯、Her等。
安装环境要求
Python 3.9、3.10Python 3.9,3.10
Windows、macos、linuxWindows,macos,Linux