AI应用-数合数字人
一、什么是数字人
数字人是通过计算机图形学、人工智能、动作捕捉等技术创建的虚拟人物形象,具有高度拟真性、交互性和个性化特点。它不仅可以高度还原真实人物的外貌、声音和动作,还能通过语音、文字等方式与用户进行交互,提供个性化的服务和体验。
数字人广泛应用于多个领域,例如在金融领域,宁波银行的“小宁”和渤海银行的“小海豚”作为数字人大堂经理和在线客服,为客户提供业务咨询和金融服务。在文旅行业,数字人如广州永旺梦乐城的“小糖”担任虚拟客服和导购,为顾客提供店铺导览和优惠推荐。在教育领域,数字人可以作为虚拟教师,为学生提供个性化学习辅导。此外,数字人还被用于品牌营销、医疗健康、智能家居等多个场景。
随着技术的不断进步,数字人的应用场景还在不断拓展。同时,随着数字人的广泛应用,相关的伦理和法律问题也逐渐凸显,如版权、隐私保护等。
二、主流数字人产品
为了更深入了解数字人,对以下几款主流数字人产品进行了分析:
HeyGem | 智影数字人 | 剪映数字人 | |
公司 | 南京硅基智能科技集团 | 腾讯公司 | 字节跳动公司旗下的抖音团队 |
技术基础 | 基于先进的AI技术,仅需1秒视频或1张照片,就能在30秒内完成数字人形象和声音克隆,在60秒内合成4K超高清视频。支持多语言输出、多表情动作,在复杂光影或遮挡场景下,依然能实现100%口型匹配。 | 基于真人三维建模与智能算法技术,通过虚拟角色与用户进行互动。提供文本配音、音色定制、智能变声等功能,文本配音功能提供了上百种音色可供选择。 | 基于计算机图形学、人工智能和语音识别等领域的先进技术 |
应用方式 | 可通过Docker一键部署,最低NVIDIA 1080Ti显卡即可运行。用户可上传正脸照片和录制语音进行克隆,支持Markdown格式剧本输入,AI根据内容推荐镜头运动方式并一键渲染生成视频。 | 互联网在线应用,用户可通过输入文本或音频内容,生成数字人播报视频。还可上传少量图片、视频素材,得到自己的数字人分身 | 用户可以通过剪映专业版的素材库面板或属性调节面板操作,输入文案或音频内容,选择数字人形象、音色、景别及背景后生成数字人播报视频 |
照片播报 | 支持,仅需1秒视频或1张照片,30秒内完成数字人形象和声音克隆,60秒内合成4K超高清视频。 | 支持,用户可通过输入文本或音频内容,生成数字人播报视频。 | 暂无明确信息,但剪映数字人支持通过输入文本或音频内容生成数字人播报视频 |
视频合成 | 支持,推理速度达到1:0.5,视频渲染合成速度达到1:2,支持4K超高清、32帧/秒的视频输出。 | 支持,用户输入文本后,可转换成自然流畅的语音,并提供虚拟形象进行视频合成 | 支持,用户输入文本后,可转换成自然流畅的语音,并提供虚拟形象进行视频合成 |
本地部署能力 | 支持,提供Docker部署文件,可在本地进行离线操作。 | 不支持 | 剪映数字人功能主要通过在线平台使用 |
标签 | 内容创作、在线教育、直播营销、影视特效、智能客服 | 自媒体创作、品牌宣传、客服培训 | 自媒体创作、品牌宣传、客服培训、在线教育、企业宣传、娱乐搞笑 |
结合本地化部署HeyGem和在线使用智影数字人,分析如下:
HeyGem:在模拟真人视频合成方面,能够生成高度逼真的数字人形象,但在外貌和动作的还原度上可能还有待提高。在使用数字人形象合成方面表现较好,能够快速创建多样化的虚拟形象,并支持本地化部署,为用户提供了较高的隐私保护和使用灵活性。
智影数字人:在数字人视频合成的速度和效率上表现出色,能够快速生成高质量的数字人视频,但在模拟真人视频合成和本地部署能力方面的具体表现暂不明确。
三、数合数字人
基于先进的开源模型,支持本地部署,可在本地离线操作,确保数据隐私安全。能够进行照片播报和视频合成,支持数字人形象合成与模拟真人视频合成,在外貌、动作和声音上高度逼真。性能方面,1分钟的视频合成大约需要30分钟(个人笔记本,1块4060卡),整体表现出色。
示例见公众号
真人效果,涉及隐私,暂不提供