打造「AI数字人分身」替你上班，总共分为几步？-CSDN博客

本文链接：https://blog.csdn.net/ytt0523_com/article/details/141262284

做最适合普通人看的科技文章

这是第 3 篇

最近，AI数字人越来越火。刷直播，它在卖货！去机场，它教我咋取票！想学英语，它陪我聊天…

太能干了！

咱普通人能不能搞一个AI数字人？以后它干活儿，我们悠闲地喝咖啡。

遇到解决不了的事情，它发出报警。我们只需要在这种关键时刻出手。最重要的是，工资照拿。

那么，实现这样的美梦到底需要几步？

首先，数字人得和我们长得一模一样。这样，领导和客户，谁还能分清开会的到底是不是本人？！

“替身文学”的主角就是你！话说，“替身”这事儿，我小时候就思考过了。

那时我邻居家有一对双胞胎姐妹，她们在一个班上学，大家都分不清她们。

我觉得很可惜。如果分成两个年级，那高年级的姐姐就可以替妹妹去考试了。

后来看《家有儿女》，里面有一集，刘星也拥有了一个自己的克隆人。他让克隆人帮自己上学，自己在家非常潇洒。

这简直就是童年美梦！

什么？你说你没有双胞胎，克隆人还是犯法的，怎么实现？AI数字人这不来了嘛~

我采访大家对数字人看法的时候，听到了一段非常有趣的话。

“有没有可能，未来我们都需要在一个平台上做自己的AI数字人，把它培训好，让它去接单，拿到报酬后，我们再给平台分成，就像骑手和外卖平台一样。”

好好好~ 工作半生，归来大家都是骑手！

现在很多平台都是可以生成自己的数字人的，京东刘强东总裁也生成了自己的数字人，让它替自己卖货。

我司的圆墟3D数字人平台，只需要上传一张图片，就能一键生成自己的数字人模型，这第一步就华丽丽地完成了。

第二步就是搭载一个AI大模型，训练它。把你工作中的录音、录像、文档，这些材料统统喂给机器，让它进行一场轰轰烈烈的学习。从表情动作，到表达方式，全方位靠近你。

这样，你就收获了一个完美的数字人分身。它既有大模型的海量知识，又有你的外貌和口吻。这不就是个开了外挂升级版的你？！！！

文能玩转各种办公软件，出活儿快准狠，无所不知；武能运用各种谈判技巧，大战客户三百回合，无往不胜。

这能力，这气势，以后你就是老板心腹！光想想就开心得不行，激动的泪水从嘴角流下来…

为了弄清这个方案的可行性，我咨询了我司的技术大佬彭老师，获得了以下回答。

“根本就不可能！”

“你以为计算机跟咱的脑子一样？以为它工作跟人一个速度，你有大把时间品茶？实际上，以计算机的算力，你茶叶还没扔进茶壶里，活儿就干完了。”

“恭喜你，能干更多活儿啦！”

“其次，先找个允许你线上办公的公司吧。你总不能在老板眼皮底下品茶吧？”

差点忘了，这才是AI数字人替我们打工最困难的一步…

“不过…”他又开口了，“如果你的数字人能接到代言，那你确实就可以坐家里数钱了。”

“细细说来！”我赶紧抓住他，继续问下去。

原来，我司有幸参与了建设运营可信数字人认证及管理平台，这是个官方平台，由上海数字证书认证中心和上海科技影都最早共同发起，跑在上海司法区块链上，我司也是超级节点之一。

啥是“司法区块链”？你想象有一个大账本，大家把每一笔交易都记在上面，不能篡改。当有案件发生，立刻去账本里找证据就行。

啥是“超级节点”？它类似于做项目时选的组长，是协作和保证项目顺利进行的重要人物。

我司主要做的就是为数字人形象发放唯一身份证，无论是数字人的人格权，还是原创知识产权，统统保护起来！

“以后人人都有自己的数字人了。尤其那些明星，要是有人冒用他们的形象制作数字人去做一些代言，或者做什么上不得台面的事，维权举证会非常麻烦。”

“但是，如果他们的数字人形象资产在这里做了认证，那么只要看数字人有没有身份证，就知道是不是本人授权的了。”

“虽然我们不是明星，但如果你骨骼惊奇，品牌就是相中你的数字人做代言，那你确实可以让它替你打工，自己在家数钱了。”

OK~我还是去买彩票吧，这个发财的概率要大一些…

在这里插入图片描述

那么，AI数字人到底是怎么分辨我们的表情，听懂我们说话的呢？

这就涉及到三个概念。分别是：计算机视觉CV/Computer Vision，自动语音识别ASR/Automatic Speech Recognition和自然语言处理NLP/Natural Language Processing。

别害怕，我会讲得非常简单。

首先来说计算机视觉CV/Computer Vision，它相当于人的眼睛。

眼睛能看到一个人、一朵花，分辨汽车在运动还是静止、红灯还是绿灯。

计算机视觉（CV）做的事情呢，就是让计算机像我们的眼睛一样，从图像或者视频里获取信息，并做出判断。

所以，当AI数字人通过像摄像头看到了我们的照片或视频，它就开始猛烈思考了。

首先，识别我们脸上不同部位的形状和动作。比如眼睛眯起来、嘴角上扬或下垂，眉毛扬起或皱着…

接着，它调取一个数学模型来比较不同表情的特征。这个模型里有超多的人类表情样本数据。

另外，它还会运用一些面部肌肉的知识，来更准确地理解我们表情代表的情绪。

总之，通过这些技术手段的综合运用，AI 数字人就能分辨出我们的表情和情绪啦！

是不是比你对象还用心？

接着来说自动语音识别ASR/Automatic Speech Recognition和自然语言处理NLP/Natural Language Processing，它们合作，起到耳朵的作用。

当我们说话的时候，比如对着手机说“今天天气真好”，自动语音识别（ASR）就忙碌起来了，它接收到声音，立刻把声音切成很小很小的片段，分析每个小片段有什么特别的“记号”。

接着，它拿着这些“记号”去跟它之前学过的大量语音数据做对比，就好像在它的“大脑”里找跟这句话相似的例子。

最后，根据对比的结果，它就试着猜出这句话里面有什么字、什么词，然后把它们组合起来，变成文字，组合成一句文本“今天天气真好”。

接着，它就把这个文本传递给它的大哥——自然语言处理（NLP）。大哥博学多才，脑子里有一本超级大的“语言字典”和“语法规则手册”。

它把文本拆分成一个个单词、短语，然后去分析这些单词和短语之间的关系，理解句子的结构。

接着，它根据之前学习到的语言数据和知识，来猜测我们文本背后真正想表达的意思。

比如说，如果文本是“我今天很饿”，它会知道“饿”这个词表示需要吃东西，从而理解我们现在肚子空空的状态。

总的来说，AI 数字人通过**自动语音识别（ASR）把声音转文本，再用自然语言处理技术（NLP）**去分析和理解这些文字，来分辨文本的意思，最后做出回应。

有没有感觉数字人好努力？我们短短一句话，它就做出这么多分析和运算。

看吧，真正爱你的人，哪怕它是个机器人，也会拼了命去理解你！（不是）

所以，一个优秀的数字人，必须靠强大的硬件来提高速度，不然它的反应速度就会像闪电一样，慢~悠悠~

那么，如何系统的去学习大模型LLM？

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

作为一名热心肠的互联网老兵，我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。

但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

所有资料 ⚡️ ，朋友们如果有需要全套《LLM大模型入门+进阶学习资源包》，扫码获取~

篇幅有限，部分资料如下：

👉LLM大模型学习指南+路线汇总👈

💥大模型入门要点，扫盲必看！
在这里插入图片描述
💥既然要系统的学习大模型，那么学习路线是必不可少的，这份路线能帮助你快速梳理知识，形成自己的体系。

👉大模型入门实战训练👈

💥光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。
在这里插入图片描述

👉国内企业大模型落地应用案例👈

💥《中国大模型落地应用案例集》 收录了52个优秀的大模型落地应用案例，这些案例覆盖了金融、医疗、教育、交通、制造等众多领域，无论是对于大模型技术的研究者，还是对于希望了解大模型技术在实际业务中如何应用的业内人士，都具有很高的参考价值。 （文末领取）
在这里插入图片描述
💥《2024大模型行业应用十大典范案例集》 汇集了文化、医药、IT、钢铁、航空、企业服务等行业在大模型应用领域的典范案例。